Marvis（马维斯）完全指南Marvis面对35张课堂截图，它调度File Agent全自动完成OCR识别与格式转换，

实测环境：Windows 11 x64｜版本号：v1.60.12.12｜测试时间：2026-06-04｜模式：效率模式

1. 为什么这事值得写 —— AI 助手终于从"聊天"走进了"操作系统"

过去我们用的大多数 AI 是 ChatBot：你把问题说清楚，它把答案“说”回来；最多再给你一段代码让你自己去跑。

Marvis 的不同在于它被官方定义为操作系统层级的个人 AI 助手（OS-level assistant）：它不止“回答”，而是尝试把系统/文件/应用/跨端纳入同一个对话入口，让你用自然语言驱动执行。

一个好用的类比（但不一定严谨）：

ChatGPT/元宝等：像“很聪明的顾问”
Marvis 想做的是：“顾问 + 有权限的行政助理”，能去看文件、改设置、操作应用，并在关键步骤把控制权还给你确认

2. Marvis 到底是什么？

出身：Marvis（马维斯）由腾讯应用宝团队推出，官网 marvis.qq.com 提供下载入口，报道指向 2026/5/20前后开放/上线节奏。
本质：它不是挂在浏览器里的问答页，而是一个装在设备上的 AI中间层/调度中心：对本地文件系统、软硬件信息、应用生态做深度理解，再把任务分给不同能力模块去执行。
关键产品形态：

效率模式：端云协同，“又快又准”的体验向
隐私模式：端侧模型思路，强调“文件 0 上传”“最大程度保护隐私”，并可谈“断网也能用”

3. 核心架构：1 个主 Agent + 5 个副 Agent 怎么分工？

公开报道反复出现的叙事是：主 Agent 负责理解需求 → 拆解 → 调度，并由一组专项 Agent（File / Computer / App / Browser / Search 等口径）去“各司其职”，并用执行日志/产出区把过程摊开给你看

Agent（官方）	你可以把它理解成…	落到你电脑上大致覆盖什么
主 Agent （PM/调度）	工头 / 项目经理	意图理解 → 拆子任务 → 选谁上 → 汇总结果 → 向你确认敏感操作
File Agent （文件管家）	本地知识库 + 文件执行层	本地文件/图片内容搜索、图片内文字（OCR维度）、按内容归类、文档理解/转换/生成报告、AI 图库/文档库这类“个人知识库”体验
Computer Agent （系统运维）	半个小运维	查硬件配置/系统信息、网络相关诊断、功耗/电池相关报告、系统设置调整、清理类操作（产品演示里会拿“关广告/优化体验”当典型案例）
App Agent （应用操控）	桌面/应用自动化入口	打开/切应用、触发操作（偏“感知界面+执行”的路线），并与应用宝生态的“PC 上操控移动 App”思路打通（这是它差异化的底座之一）
Browser Agent （网页专员）	网页世界执行器	网页交互/数据抓取/表单填写（你能下的指令越明确，成功率越高；复杂动态站点要降低预期）
Search Agent （搜索专家）	信息检索 + 聚合	本地索引 + 联网检索的双通道搜索、摘要与溯源（官网也强调“信息检索与调研”这类场景）

4. 安装与上手

4.1 下载（唯一建议入口） 官网：marvis.qq.com

4.2 系统要求（官网所述）

CPU：≥ 6 核内存：≥ 16GB 硬盘：固态硬盘系统：Win10 及以上，x64 （Mac/Android 也有对应入口）

4.3 第一次跑起来的关键步骤（建议）

装完启动 → 扫码登录
权限要给到位（否则就会出现你说的“什么都听不懂/干不动”的假象）：
- 文件读写
- 系统设置/设备管理类权限
- 应用操控/辅助功能
- 屏幕录制/截图类权限
选模式：效率模式 vs 隐私模式
全局唤醒快捷键：去「设置 → 快捷键」确认/改成你舒服的键位。

5. 实测环节

光说不练假把式。下面我用一个真实、高复杂度的任务，来验证这套 Agent 架构是不是“真干活”。

场景：学生/职场人的“信息录入地狱”——35张手写/板书截图秒变结构化 Word

测试目的：市面上大多数 AI 只能处理纯文本，面对图片（尤其是 PPT 截图、手写笔记）往往无能为力，或者需要人工先转成文字。我想测试 Marvis 的多模态识别能力，以及它能否在不拆解指令的情况下，一次性搞定“识别 + 分类 + 排版 + 格式转换”的全链路闭环。

输入指令（极高难度）： “这是我刚才上课截屏的笔记帮我整理出来。这个是六级写译部分的，照片黄色高亮的你就用红色高亮，做成 Word 文件形式的笔记，便于我复习。” (注：我在此处一口气上传了 35 张课堂板书截图)

场景演示

第一轮：意图对齐 Marvis 没有直接开始干活，而是先进行了一波“反向提问”。它识别出图片数量庞大（35张），于是给出了三个方案：

A. 按照片顺序逐页整理
B. 按知识点分类整理（如写作技巧、翻译技巧）
C. 两者结合

💡 我的评价
这点非常像经验丰富的项目经理。它没有盲目执行，而是先确认交付标准，避免了返工。

第二轮：内部调度与降本增效 当我选择了“C风格（分类+保序）”后，Marvis 展示了它作为 OS-Agent 的杀手锏——内部 Task Dispatching（任务分发）。

主 Agent 的思考：“用户需求是批量 OCR 和生成 Word，这属于文件处理范畴。如果我用通用的图片分析接口（analyze_image），35张图要调用 4 次，成本高且慢。”
决策：它决定“派发给 File Agent 来处理”。

💡 我的评价
这是这篇文章的核心卖点！很多 AI 工具遇到这种活会直接崩掉或者让用户分批传。Marvis 展现了“系统内聚性”，主脑知道谁擅长干这个，直接把任务外包给了专门管文件的 Agent，还附带了“拍了拍”这种拟人化的进度催促。

第三轮：容错与重试

在执行过程中，File Agent 似乎遇到了一点网络或资源的小卡顿。主 Agent 立即接管，发现“未完成产出”，随即重新派发（Re-dispatch），直到任务彻底跑通。

最终交付物：

最终生成的六级写译笔记.docx不仅是一个简单的文本堆砌，而是一个结构化的知识库：

智能分类：自动将散落在 35 张图中的内容归纳为“被动语态”、“非谓语动词”、“复合句”等六大知识点。
格式还原：完美兑现了“黄色高亮变红色”的承诺。
极速交付：全程无需人工干预，自动调用 python-docx 等底层工具生成了 .docx文件。

💡 实测结论：

如果你经常需要把微信聊天记录里的图片、扫描版 PDF 或者 PPT 截图整理成电子笔记，Marvis 的“File Agent + 多模态”组合是目前为止我见过最省心的方案。它把原本需要 1 小时的“Ctrl+C / Ctrl+V”苦力活，压缩到了 5 分钟，且准确率极高。

6. 它跟别的 AI 工具到底差在哪？

维度	Marvis（马维斯）	ChatGPT/元宝等对话式 AI	开源桌面 Agent / 自己搭的 workflow
定位	操作系统层级个人 AI 助手（面向终端/文件/应用/跨端）	对话 & 内容生成（更多是“告诉你怎么做”）	框架 + 你定义技能/工具
开箱即用	✅ 装完就有 Agent 叙事与执行框架（是否合你口味另说）	✅ 对话能力极强 ❌ 一般不直接碰你系统	❌ 需要配环境/写工具描述
隐私控制	✅ 提供“隐私模式/本地路线”的产品开关（官网首页直接写“文件 0 上传”）	❌ 多为云端对话（企业版可以按合规方案走）	✅ 可完全本地化 ⚠️ 但运维成本在你
跨端 PC↔手机	✅ 强调手机远程查看/接管 PC （应用宝生态加成）	❌ 通常不做这块	❌ 得自己搞远控

一句话结论：Marvis 的核心不在“模型更强”，而在它试图把 权限 + 索引 + 调度 + 可视化 做成一套“装完就能指使人干活”的壳。

7. 当前的不足

稳定性/适配面：系统级操作永远绕不开“不同机型/不同 OEM定制/不同权限策略”导致的成功率波动（尤其笔记本厂商自带管家、企业镜像、组策略环境）。
隐私模式的代价：本地模型路线通常意味着“复杂推理上限”更低、响应更慢、更吃硬件；官网也把推荐配置写得不低（≥6核/16GB/SSD）。
GUI自动化天花板：凡是靠“看见界面再点”的流程，遇到窗口被遮挡、缩放/DPI异常、远程桌面、多显示器，都会更容易翻车——这时它的“拆解+确认”反而是护身符。
iOS 进度：还在“在路上”的阶段，需要以官网更新为准。

8. 总结：它适合谁？你要不要用？

更适合：文件重度堆积者、经常做“找文档→摘要点→整理”的人、想少点记设置路径的普通用户、对“数据不出设备”有刚需的场景（切隐私模式再试）。
不适合：期待它像电影里贾维斯一样“全自主、零确认、零出错”的人——目前任何 OS-level Agent 夸大成这样都不诚实。
我的判断：它最大的价值是把“AI 能理解本地”这件事做成产品化入口；你能不能留下，取决于你愿不愿意让它索引你的目录 + 你机器性能撑不撑得住日常开着的代价。