文件IO智能体系统

用户手册

2025年6月制

北京厚真视觉设计有限公司

简介

关于本手册

本文档详细描述文件IO智能体系统的各项功能模块的使用方法。

系统简介

为了更好地满足现代高效处理文件和日常办公的需求，同时降低强专业性文件处理的门槛，我们推出了文件IO智能体系统。该产品是基于人工智能技术的多轮对话系统，旨在通过大语言模型对人类自然语言的理解和智能体的推理能力，协助用户处理各种类型的文件。

文件IO智能体系统主要包括以下功能模块：PDF与图像相互转换、视频下载、文字转语音（Text to Speech）、资源搜索、二维码制作、多媒体文件编辑、计算音乐学。这些模块通过通过理解用户提示里的关键信息参数，快速地生成满足用户特定需求的文件。

文件IO智能体系统使用手册

打开方式

用户可以通过使用微信客户端扫描下方小程序码，进入体验。

此外，用户也可以通过关注微信公众号 “文件IO”，点击聊天窗口右下角的“体验一下”，快速进入体验。

界面布局说明

界面按照功能划分为上下两个区域，上方区域是文件列表展示区域，用户可以在此区域查看系统为您生成的文件，点击可预览。下方是对话输入区域，用户可以使用自然语言描述自己的需求，然后点击“发送”按钮，我们的服务器将处理您的指令。下图为界面截图：

除文字输入之外，在聊天框的首、尾端各有一个图片和“+”符号，它们用于上传用户本地的图片和文档类文件到文件列表区域，以做进一步处理。例如，用户有一个待处理的PDF文档，可首先点击“+”按钮选择该文档并上传，待上传成功后，在文字区域用自然语言描述需求，如 “请把这个pdf文件里的第1、3、8页的图片取出来”，稍等片刻，在上方文件列表区域就会出现与PDF文档同名前缀的图片文件，任务圆满结束。（注: 用户需要完成登录，才能实际发送指令。未完成登录之前，发送按钮是灰色状态）

聊天区域说明

通过点击下方聊天区域最左侧的“聊天窗口”，可以唤起聊天页面，在该页面，用户可以实时查看当前任务的进度和系统的反馈，并在任务完成时，通知用户，如下图所示：

个人信息区域说明

在“我的”页面，用户点击登录之后，会展示账户信息，主要包括四项内容：在线状态，Token余额，网盘有效期以及用户名。如下图所示：

状态

表示用户与我们的后端服务器之间的连接状态，值可以是两种——在线/离线。当处于在线状态时，聊天页面的“发送”按钮才会被激活，用户可以发送指令。当处于离线状态时，表示用户与我们的后端服务器的网络连接中断，暂无法发送指令，用户可等到此状态变为在线时，再次发送指令。状态刷新，用户可以通过点击状态栏实现状态刷新，在长时间处于离线状态时，可尝试此方式重新回到在线状态。同时我们也提供下拉页面的方式刷新页面。

Token

Token是用户每次向我们的服务器发出指令所消耗的凭证。我们为每位用户提供了一定数量的试用额度，耗尽后需要充值，才可以继续使用我们的服务。

到期时间

用户能够与文件列表中的文件发生上传、下载等交互行为的截至有效期限。此期限不与Token余额关联，即Token余额会被保留，即使过了到期时间。

用户名

与用户登录的身份信息关联的专属身份码。用户通过公众号进行充值时，须提供此处的用户名栏对应的信息（如此处的dgcDy就是用户名）。

错误处理

离线

用户发现自己的小程序长时间处于离线状态时,可以尝试以下策略: 1. 下拉刷新。切换到“我的”页面，下拉页面刷新状态。也可以点击账户信息栏目最左侧的 “状态” 栏，实现状态刷新; 2. 重启小程序。关闭掉当前界面后，等待5秒钟，再次打开小程序。 3. 重新登录。在“我的”页面，点击设置，退出登录，并再次登入。 4. 卸载小程序，并重新打开小程序，进行登录。 5. 如果以上策略都无法解决，请联系我们的技术支持（邮箱：support@wenjian.io）。

界面无响应

点击界面，没有响应时，可依次尝试重新打开小程序页面，重新登录，或卸载小程序后重新打开。

你可以这样跟我说

文档操作

把这个pdf文档的第1、3、8页转成图片。
把这几张图片做成一个表情包。
把这个名为"合同.pdf"文档转为图片。
把那个2025开头的pdf文档里的图片提取出来。
把所有的jpg图片合并成为一个pdf,保持图片宽高比，pdf的页面尺寸不要a4,设置为b5,背景要蓝色，最后再给这个pdf设置个密码，密码设为123456。

视频下载

下载这个视频 https://www.bilibili.com/video/BV1yx4y1Y7HP/?share_source=copy_web

文字转语音

用英式英语念这句话：To be, or not to be, that is a question.
用富有诗意的日语念这首诗：鹤鸣于九皋，声闻于野。鱼潜在渊，或在于渚。乐彼之园，爰有树檀，其下维萚。它山之石，可以为错。鹤鸣于九皋，声闻于天。鱼在于渚，或潜在渊。乐彼之园，爰有树檀，其下维榖。它山之石，可以攻玉
翻译我爱你为法语,然后转为语音。

搜索资源

给我一幅千里江山图
还想看其他的传世名画吗？试试告诉我吧

二维码

给我家的wifi做个二维码，名叫TP-LINK_8888,密码是123456
解析文件名是"IMG_1234.JPG"的二维码。(首先上传这个图片哦)
扫描一下那个名叫文件io.jpg 的二维码。(首先上传这个图片哦)
做一个发邮件的二维码，收件人是 support@wenjian.io, 邮件主题是反馈bug
做一个联系人的vcard的二维码，姓名张三，性别男，电话010-12345678, 工作单位是北京市厚真视觉设计有限公司，其个人网站是zhang.san, 邮箱是 zhangsan@wenjian.io
把电话号码 134xxxx8888 做成一个二维码。
做一个发短信的二维码，电话号码是 134xxxx8888, 短信内容是你好，张三。祝端午安康。
把网址 wenjian.io 做成一个二维码。
做一个地理位置二维码，经度是，纬度是36.99443991535538, 经度是113.92837854295247。
把夏吃龙虾冬吃蟹这句吃货语录做成一个二维码。

多媒体

把 123.mp4 做成表情包。
把 123.mp4 里的音轨取出来。
把 123.mp4 的音频抽取出来，然后从这段音频截取2分30秒到4分10秒之间的部分，并转为opus。
截取 123.mp4 从2分15秒开始的10秒钟，然后截取画面中央35%的区域，做成表情包。
截取 123.mp4 画面中央区域,宽度保持不变,高度为36%，做成表情包。
截取 123.mp4 从2分15秒开始的10秒钟，然后截取画面中央35%的区域，把视频转码成更通用的格式, 最后做成表情包。
提取 123.mp4 的语音,保存为ogg格式,只保存刚开始的20秒. 然后截取这个视频从2分15秒开始到4:30，把视频转码成体积更小的格式, 最后做成表情包。
把 demo.mp4 里的音轨提取出来,转成aac。

注意，在将视频转为表情包的任务中，视频时长通常不要超过15秒。

音乐学

把123.flac 拆分成人声和伴奏。
把123.flac 的伴奏取出来。
把123.flac 里的鼓点去掉。
把123.flac 拆分成鼓点、贝斯和其他。
把123.flac 的钢琴和鼓点部分提取出来。
把123.mp4 的音轨取出来，拆分成吉它和鼓点。

充值

有两种充值方法可供选择——公众号和聊天窗口充值。

公众号

用户扫描下图所示二维码，到达公众号对话框，点击“充值”按钮，充值之前，须获取账户的用户名，可在小程序页面“我的”中查看（详见上面“个人信息区域说明”）。

dgcDy

聊天窗口充值

在聊天窗口，输入自然语言的充值指令，系统会为用户生成充值二维码，放在文件列表窗口中（如下图所示）

充10块钱。
充一个月会员。
充一个季度。
充一年会员。
来一个7天体验包。

预定义指令

一些预定义的指令，可以完成特定任务，而无需消耗Token。

用户名

在聊天窗口输入“用户名”, 即可快速查看当前用户的用户名信息。多用于通过公众号充值的场景。

用法

在聊天窗口输入“用法” 或英文单词 “usage”, 会随机向用户展示若干使用示例。

用户手册

在聊天窗口输入“用户手册” 或 “手册”, 可将本手册传送至用户工作目录。

清空

在聊天窗口输入“清空” 或 “clear”, 即可删除当前工作空间内的所有对象，包括文件和子目录。

关于准确性的说明

在计算机科学中，达到100%准确率的算法不是一件容易的事。尽管全世界各地的算法工程师们通过巧思将优化做到极致，仍不免出现纰漏。这样的纰漏在计算机编程领域称为 bug（虫子）。大语言模型（Large Language Model，LLM）也并不特殊，本质上讲，现阶段的大预言模型是基于概率预测下一个“字”，从开始就决定了其数字化的基调，而与人类的推理能力具有本质差异。大语言模型的“幻觉”是一个典型的例子，即表面看它的推理结果一本正经，实际上的内容却是在胡说八道。因此，用户发送的任务指令存在一定几率被执行失败或被错误理解并执行的可能，用户可尝试更换自然语言的表达方式，使任务目标更加突出、明确通常会解决问题。举一个例子类比是另一个跟大语言模型有效沟通的技巧。

技术支持

用户可通过技术支持群和发送邮件两种方式与我们建立联系，获取技术支持。

邮箱

用户可发送问题反馈至support@wenjian.io, 请注明自己的用户名。

技术支持群

用户可扫描下方技术支持群二维码，欢迎就各种问题、建议与我们探讨。

法律

文件IO智能体系统保留在法律范围内的有关在线状态、服务器维护、Token扣减等解释权。