实测环境:Windows 11 x64|版本号:v1.60.12.12|测试时间:2026-06-04|模式:效率模式
1. 为什么这事值得写 —— AI 助手终于从"聊天"走进了"操作系统"
过去我们用的大多数 AI 是 ChatBot:你把问题说清楚,它把答案“说”回来;最多再给你一段代码让你自己去跑。
Marvis 的不同在于它被官方定义为 操作系统层级的个人 AI 助手(OS-level assistant):它不止“回答”,而是尝试把系统/文件/应用/跨端纳入同一个对话入口,让你用自然语言驱动执行。
一个好用的类比(但不一定严谨):
- ChatGPT/元宝等:像“很聪明的顾问”
- Marvis 想做的是:“顾问 + 有权限的行政助理”,能去看文件、改设置、操作应用,并在关键步骤把控制权还给你确认
2. Marvis 到底是什么?
- 出身:Marvis(马维斯)由腾讯应用宝团队推出,官网 marvis.qq.com 提供下载入口,报道指向 2026/5/20前后开放/上线节奏。
- 本质:它不是挂在浏览器里的问答页,而是一个装在设备上的 AI中间层/调度中心:对本地文件系统、软硬件信息、应用生态做深度理解,再把任务分给不同能力模块去执行。
- 关键产品形态:
-
效率模式:端云协同,“又快又准”的体验向
-
隐私模式:端侧模型思路,强调“文件 0 上传”“最大程度保护隐私”,并可谈“断网也能用”
3. 核心架构:1 个主 Agent + 5 个副 Agent 怎么分工?
公开报道反复出现的叙事是:主 Agent 负责理解需求 → 拆解 → 调度,并由一组专项 Agent(File / Computer / App / Browser / Search 等口径)去“各司其职”,并用执行日志/产出区把过程摊开给你看
| Agent(官方) | 你可以把它理解成… | 落到你电脑上大致覆盖什么 |
|---|---|---|
| 主 Agent (PM/调度) | 工头 / 项目经理 | 意图理解 → 拆子任务 → 选谁上 → 汇总结果 → 向你确认敏感操作 |
| File Agent (文件管家) | 本地知识库 + 文件执行层 | 本地文件/图片内容搜索、图片内文字(OCR维度)、按内容归类、文档理解/转换/生成报告、AI 图库/文档库这类“个人知识库”体验 |
| Computer Agent (系统运维) | 半个小运维 | 查硬件配置/系统信息、网络相关诊断、功耗/电池相关报告、系统设置调整、清理类操作(产品演示里会拿“关广告/优化体验”当典型案例) |
| App Agent (应用操控) | 桌面/应用自动化入口 | 打开/切应用、触发操作(偏“感知界面+执行”的路线),并与应用宝生态的“PC 上操控移动 App”思路打通(这是它差异化的底座之一) |
| Browser Agent (网页专员) | 网页世界执行器 | 网页交互/数据抓取/表单填写(你能下的指令越明确,成功率越高;复杂动态站点要降低预期) |
| Search Agent (搜索专家) | 信息检索 + 聚合 | 本地索引 + 联网检索的双通道搜索、摘要与溯源(官网也强调“信息检索与调研”这类场景) |
4. 安装与上手
4.1 下载(唯一建议入口) 官网:marvis.qq.com
4.2 系统要求(官网所述)
CPU:≥ 6 核 内存:≥ 16GB 硬盘:固态硬盘 系统:Win10 及以上,x64 (Mac/Android 也有对应入口)
4.3 第一次跑起来的关键步骤(建议)
- 装完启动 → 扫码登录
- 权限要给到位(否则就会出现你说的“什么都听不懂/干不动”的假象):
- 文件读写
- 系统设置/设备管理类权限
- 应用操控/辅助功能
- 屏幕录制/截图类权限
- 选模式:效率模式 vs 隐私模式
- 全局唤醒快捷键:去「设置 → 快捷键」确认/改成你舒服的键位。
5. 实测环节
光说不练假把式。下面我用一个真实、高复杂度的任务,来验证这套 Agent 架构是不是“真干活”。
场景 :学生/职场人的“信息录入地狱”——35张手写/板书截图秒变结构化 Word
测试目的: 市面上大多数 AI 只能处理纯文本,面对图片(尤其是 PPT 截图、手写笔记)往往无能为力,或者需要人工先转成文字。我想测试 Marvis 的多模态识别能力,以及它能否在不拆解指令的情况下,一次性搞定“识别 + 分类 + 排版 + 格式转换”的全链路闭环。
输入指令(极高难度): “这是我刚才上课截屏的笔记帮我整理出来。这个是六级写译部分的,照片黄色高亮的你就用红色高亮,做成 Word 文件形式的笔记,便于我复习。” (注:我在此处一口气上传了 35 张课堂板书截图)
第一轮:意图对齐
Marvis 没有直接开始干活,而是先进行了一波“反向提问”。它识别出图片数量庞大(35张),于是给出了三个方案:
- A. 按照片顺序逐页整理
- B. 按知识点分类整理(如写作技巧、翻译技巧)
- C. 两者结合
💡 我的评价
这点非常像经验丰富的项目经理。它没有盲目执行,而是先确认交付标准,避免了返工。
第二轮:内部调度与降本增效
当我选择了“C风格(分类+保序)”后,Marvis 展示了它作为 OS-Agent 的杀手锏——内部 Task Dispatching(任务分发)。
- 主 Agent 的思考:“用户需求是批量 OCR 和生成 Word,这属于文件处理范畴。如果我用通用的图片分析接口(analyze_image),35张图要调用 4 次,成本高且慢。”
- 决策:它决定“派发给 File Agent 来处理”。
💡 我的评价
这是这篇文章的核心卖点!很多 AI 工具遇到这种活会直接崩掉或者让用户分批传。Marvis 展现了“系统内聚性”,主脑知道谁擅长干这个,直接把任务外包给了专门管文件的 Agent,还附带了“拍了拍”这种拟人化的进度催促。
第三轮:容错与重试
在执行过程中,File Agent 似乎遇到了一点网络或资源的小卡顿。主 Agent 立即接管,发现“未完成产出”,随即重新派发(Re-dispatch),直到任务彻底跑通。
最终交付物:
最终生成的 六级写译笔记.docx不仅是一个简单的文本堆砌,而是一个结构化的知识库:
- 智能分类:自动将散落在 35 张图中的内容归纳为“被动语态”、“非谓语动词”、“复合句”等六大知识点。
- 格式还原:完美兑现了“黄色高亮变红色”的承诺。
- 极速交付:全程无需人工干预,自动调用 python-docx 等底层工具生成了 .docx文件。
💡 实测结论:
如果你经常需要把微信聊天记录里的图片、扫描版 PDF 或者 PPT 截图整理成电子笔记,Marvis 的“File Agent + 多模态”组合是目前为止我见过最省心的方案。它把原本需要 1 小时的“Ctrl+C / Ctrl+V”苦力活,压缩到了 5 分钟,且准确率极高。
6. 它跟别的 AI 工具到底差在哪?
| 维度 | Marvis(马维斯) | ChatGPT/元宝等对话式 AI | 开源桌面 Agent / 自己搭的 workflow |
|---|---|---|---|
| 定位 | 操作系统层级个人 AI 助手 (面向终端/文件/应用/跨端) | 对话 & 内容生成 (更多是“告诉你怎么做”) | 框架 + 你定义技能/工具 |
| 开箱即用 | ✅ 装完就有 Agent 叙事与执行框架 (是否合你口味另说) | ✅ 对话能力极强 ❌ 一般不直接碰你系统 | ❌ 需要配环境/写工具描述 |
| 隐私控制 | ✅ 提供“隐私模式/本地路线”的产品开关 (官网首页直接写“文件 0 上传”) | ❌ 多为云端对话 (企业版可以按合规方案走) | ✅ 可完全本地化 ⚠️ 但运维成本在你 |
| 跨端 PC↔手机 | ✅ 强调手机远程查看/接管 PC (应用宝生态加成) | ❌ 通常不做这块 | ❌ 得自己搞远控 |
一句话结论:Marvis 的核心不在“模型更强”,而在它试图把 权限 + 索引 + 调度 + 可视化 做成一套“装完就能指使人干活”的壳。
7. 当前的不足
- 稳定性/适配面:系统级操作永远绕不开“不同机型/不同 OEM定制/不同权限策略”导致的成功率波动(尤其笔记本厂商自带管家、企业镜像、组策略环境)。
- 隐私模式的代价:本地模型路线通常意味着“复杂推理上限”更低、响应更慢、更吃硬件;官网也把推荐配置写得不低(≥6核/16GB/SSD)。
- GUI自动化天花板:凡是靠“看见界面再点”的流程,遇到窗口被遮挡、缩放/DPI异常、远程桌面、多显示器,都会更容易翻车——这时它的“拆解+确认”反而是护身符。
- iOS 进度:还在“在路上”的阶段,需要以官网更新为准。
8. 总结:它适合谁?你要不要用?
- 更适合:文件重度堆积者、经常做“找文档→摘要点→整理”的人、想少点记设置路径的普通用户、对“数据不出设备”有刚需的场景(切隐私模式再试)。
- 不适合:期待它像电影里贾维斯一样“全自主、零确认、零出错”的人——目前任何 OS-level Agent 夸大成这样都不诚实。
- 我的判断:它最大的价值是把“AI 能理解本地”这件事做成产品化入口;你能不能留下,取决于你愿不愿意让它索引你的目录 + 你机器性能撑不撑得住日常开着的代价。