文件IO智能体系统

用户手册

2025年6月 制
北京厚真视觉设计有限公司

简介

关于本手册

本文档详细描述文件IO智能体系统的各项功能模块的使用方法。

系统简介

为了更好地满足现代高效处理文件和日常办公的需求,同时降低强专业性文件处理的门槛,我们推出了文件IO智能体系统。该产品是基于人工智能技术的多轮对话系统,旨在通过大语言模型对人类自然语言的理解和智能体的推理能力,协助用户处理各种类型的文件。

文件IO智能体系统主要包括以下功能模块:PDF与图像相互转换、视频下载、文字转语音(Text to Speech)、资源搜索、二维码制作、多媒体文件编辑、计算音乐学。这些模块通过通过理解用户提示里的关键信息参数,快速地生成满足用户特定需求的文件。

文件IO智能体系统使用手册

打开方式

用户可以通过使用微信客户端扫描下方小程序码,进入体验。

Main Window
此外,用户也可以通过关注微信公众号 “文件IO”,点击聊天窗口右下角的“体验一下”,快速进入体验。
Main Window

界面布局说明

界面按照功能划分为上下两个区域,上方区域是文件列表展示区域,用户可以在此区域查看系统为您生成的文件,点击可预览。下方是对话输入区域,用户可以使用自然语言描述自己的需求,然后点击“发送”按钮,我们的服务器将处理您的指令。下图为界面截图:

Main Window

除文字输入之外,在聊天框的首、尾端各有一个图片和“+”符号,它们用于上传用户本地的图片和文档类文件到文件列表区域,以做进一步处理。例如,用户有一个待处理的PDF文档,可首先点击“+”按钮选择该文档并上传,待上传成功后,在文字区域用自然语言描述需求,如 “请把这个pdf文件里的第1、3、8页的图片取出来”, 稍等片刻,在上方文件列表区域就会出现与PDF文档同名前缀的图片文件,任务圆满结束。(注: 用户需要完成登录,才能实际发送指令。未完成登录之前,发送按钮是灰色状态)

聊天区域说明

通过点击下方聊天区域最左侧的“聊天窗口”,可以唤起聊天页面,在该页面,用户可以实时查看当前任务的进度和系统的反馈,并在任务完成时,通知用户,如下图所示:

Main Window

个人信息区域说明

在“我的”页面,用户点击登录之后,会展示账户信息,主要包括四项内容:在线状态,Token余额,网盘有效期以及用户名。如下图所示:

错误处理

离线

用户发现自己的小程序长时间处于离线状态时,可以尝试以下策略: 1. 下拉刷新。切换到“我的”页面,下拉页面刷新状态。也可以点击账户信息栏目最左侧的 “状态” 栏,实现状态刷新; 2. 重启小程序。关闭掉当前界面后,等待5秒钟,再次打开小程序。 3. 重新登录。在“我的”页面,点击设置,退出登录,并再次登入。 4. 卸载小程序,并重新打开小程序,进行登录。 5. 如果以上策略都无法解决,请联系我们的技术支持(邮箱:support@wenjian.io)。

界面无响应

点击界面,没有响应时,可依次尝试重新打开小程序页面,重新登录,或卸载小程序后重新打开。

你可以这样跟我说

文档操作

  1. 把这个pdf文档的第1、3、8页转成图片。
  2. 把这几张图片做成一个表情包。
  3. 把这个名为"合同.pdf"文档转为图片。
  4. 把那个2025开头的pdf文档里的图片提取出来。
  5. 把所有的jpg图片合并成为一个pdf,保持图片宽高比,pdf的页面尺寸不要a4,设置为b5,背景要蓝色,最后再给这个pdf设置个密码,密码设为123456。

视频下载

  1. 下载这个视频 https://www.bilibili.com/video/BV1yx4y1Y7HP/?share_source=copy_web

文字转语音

  1. 用英式英语念这句话:To be, or not to be, that is a question.
  2. 用富有诗意的日语念这首诗:鹤鸣于九皋,声闻于野。鱼潜在渊,或在于渚。乐彼之园,爰有树檀,其下维萚。它山之石,可以为错。鹤鸣于九皋,声闻于天。鱼在于渚,或潜在渊。乐彼之园,爰有树檀,其下维榖。它山之石,可以攻玉
  3. 翻译 我爱你 为法语,然后转为语音。

搜索资源

  1. 给我一幅千里江山图
  2. 还想看其他的传世名画吗? 试试告诉我吧

二维码

  1. 给我家的wifi做个二维码,名叫TP-LINK_8888,密码是123456
  2. 解析文件名是"IMG_1234.JPG"的二维码。(首先上传这个图片哦)
  3. 扫描一下那个名叫 文件io.jpg 的二维码。(首先上传这个图片哦)
  4. 做一个发邮件的二维码,收件人是 support@wenjian.io, 邮件主题是反馈bug
  5. 做一个联系人的vcard的二维码,姓名张三,性别男,电话010-12345678, 工作单位是北京市厚真视觉设计有限公司,其个人网站是zhang.san, 邮箱是 zhangsan@wenjian.io
  6. 把电话号码 134xxxx8888 做成一个二维码。
  7. 做一个发短信的二维码,电话号码是 134xxxx8888, 短信内容是 你好,张三。祝端午安康。
  8. 把网址 wenjian.io 做成一个二维码。
  9. 做一个地理位置二维码,经度是,纬度是36.99443991535538, 经度是113.92837854295247。
  10. 把 夏吃龙虾冬吃蟹 这句吃货语录做成一个二维码。

多媒体

  1. 把 123.mp4 做成表情包。
  2. 把 123.mp4 里的音轨取出来。
  3. 把 123.mp4 的音频抽取出来,然后从这段音频截取2分30秒到4分10秒之间的部分,并转为opus。
  4. 截取 123.mp4 从2分15秒开始的10秒钟, 然后截取画面中央35%的区域,做成表情包。
  5. 截取 123.mp4 画面中央区域,宽度保持不变,高度为36%,做成表情包。
  6. 截取 123.mp4 从2分15秒开始的10秒钟, 然后截取画面中央35%的区域,把视频转码成更通用的格式, 最后做成表情包。
  7. 提取 123.mp4 的语音,保存为ogg格式,只保存刚开始的20秒. 然后截取这个视频从2分15秒开始到4:30, 把视频转码成体积更小的格式, 最后做成表情包。
  8. 把 demo.mp4 里的音轨提取出来,转成aac。

注意,在将视频转为表情包的任务中,视频时长通常不要超过15秒。

音乐学

  1. 把123.flac 拆分成人声和伴奏。
  2. 把123.flac 的伴奏取出来。
  3. 把123.flac 里的鼓点去掉。
  4. 把123.flac 拆分成鼓点、贝斯和其他。
  5. 把123.flac 的钢琴和鼓点部分提取出来。
  6. 把123.mp4 的音轨取出来,拆分成吉它和鼓点。

充值

有两种充值方法可供选择——公众号和聊天窗口充值。

预定义指令

一些预定义的指令,可以完成特定任务,而无需消耗Token。

关于准确性的说明

在计算机科学中,达到100%准确率的算法不是一件容易的事。尽管全世界各地的算法工程师们通过巧思将优化做到极致,仍不免出现纰漏。这样的纰漏在计算机编程领域称为 bug(虫子)。大语言模型(Large Language Model,LLM)也并不特殊,本质上讲,现阶段的大预言模型是基于概率预测下一个“字”,从开始就决定了其数字化的基调,而与人类的推理能力具有本质差异。大语言模型的“幻觉”是一个典型的例子,即表面看它的推理结果一本正经,实际上的内容却是在胡说八道。因此,用户发送的任务指令存在一定几率被执行失败或被错误理解并执行的可能,用户可尝试更换自然语言的表达方式,使任务目标更加突出、明确通常会解决问题。举一个例子类比是另一个跟大语言模型有效沟通的技巧。

技术支持

用户可通过技术支持群和发送邮件两种方式与我们建立联系,获取技术支持。

法律

文件IO智能体系统保留在法律范围内的有关在线状态、服务器维护、Token扣减等解释权。