这两天 Marvis 的讨论很热。名字本身很容易让人想到 Jarvis,所以很多人第一反应是:它是不是已经接近科幻里的智能管家了?
我这次没有直接做深度评测,而是先从最基础的体验看起。因为对桌面 Agent 来说,第一步不是看宣传词,而是看几个很具体的问题:
它是不是只是套了一个聊天框?
它有没有真的按桌面 Agent 来设计?
它能不能把自然语言指令真正交给桌面去执行?
这篇先只讲下载、安装、首次进入、界面亮点和一个小任务。复杂办公流、文档整理、跨网页研究、失败恢复和长任务稳定性,我会留到后面单独测。
我会把这次体验的边界先说清楚:它不是一次性能压测,也不是“能不能替代人工作”的结论。更像是把一个刚装好的桌面 Agent 当成普通用户来试一圈,看它的入口、界面和最轻量的执行链路是不是成立。
这样测有一个好处:不会一上来就被宣传词带着跑。很多 Agent 产品在演示里都很顺,但真正装到本机、进入第一屏、输入第一条任务时,细节会很快暴露出来。它到底是聊天窗口,还是有意在做桌面工作台,通常第一轮就能看出一些苗头。
先看第一印象:它不是普通网页聊天框
我这次先装的是 Windows 版。下载和启动都比较直接,打开后是独立客户端,而不是普通网页对话页。
这个细节不复杂,但对桌面 Agent 很重要。
如果一个产品只是把聊天框放进桌面壳里,那它本质上还是问答工具。桌面 Agent 要做的事情更重:理解本机环境、应用入口、浏览器、本地文件、用户当前正在做什么,以及什么时候应该执行动作。
Marvis 第一次启动时,没有直接把我丢进一个空白输入框,而是先让我选择使用场景。这个入口我觉得还可以。Agent 真要替人做事,至少得先知道用户大概想让它处理哪类任务。
当然,这里先不要过度解读。场景选择做得好,不代表执行就一定稳。它只能说明 Marvis 的入口不是按普通聊天工具来设计的。
从体验上看,这个阶段最重要的不是“看起来高级”,而是有没有把用户从聊天思维往任务思维上带。Marvis 至少在第一屏给了这个信号:它希望用户说的是要完成什么事,而不只是问一个问题。
主界面有一点桌面控制台的味道
进入主界面后,我第一眼看的是左侧导航。
这里不只是新建对话。左侧还有自动任务、技能广场、应用、文档、图库和此电脑。也就是说,Marvis 试图把聊天、任务、本地资源和应用入口放在同一个工作台里。
这一点比“只有一个聊天框”的产品更接近桌面 Agent。
更有辨识度的是 Marvis 办公室。它把 Marvis、App Agent、Browser Agent 做成了看得见的角色,而不是把所有执行过程都藏在后台。
这点我挺喜欢。很多 Agent 产品最大的问题不是完全不能执行,而是过程太模糊。用户只看到一个进度条,不知道它到底调用了哪个能力,也不知道卡在哪里。
Marvis 把不同 Agent 的角色展示出来,至少让用户知道“谁在负责哪一段”。不过,这仍然只是界面层面的信息展示。它在复杂任务里能不能正确分工、纠错和恢复,还得继续测。
我做了一个小任务测试
这次我只做了一个小任务:让它打开 Marvis 官网。
这个任务不难,但适合观察一个基本问题:自然语言指令能不能进入桌面执行,而不是只在聊天窗口里返回一句回答。
测试中,它理解指令后,把任务分发给 App Agent;当检测到多个浏览器时,还会让我选择使用哪个浏览器;最后网站能够正常打开。
这里我比较在意“浏览器选择”这个小细节。它看起来只是多问了一步,但对桌面 Agent 来说,这类确认很关键。因为桌面环境不像网页沙盒,用户可能同时装了多个浏览器,也可能有正在登录的工作账号和个人账号。Agent 如果完全自作主张,短期看起来更快,长期反而容易出错。
这说明从指令到打开网页这一段流程跑通了:
- 用户输入自然语言指令
- Marvis 判断任务类型
- App Agent 接手执行
- 浏览器被调用
- 目标网页打开
这比“只回复一个链接”更进一步。
但这个测试不能证明它已经是成熟的智能管家。真正难的不是打开网站,而是在复杂任务里持续规划、正确点击、识别异常、从失败中恢复,并且在高风险动作前让用户确认。
所以这次小任务的价值只到这里:它证明 Marvis 不是只在聊天框里“建议你打开某个链接”,而是确实尝试把动作交给桌面环境执行。至于它能不能处理更长的任务链,还需要新的样本。
这次试完,我的判断
Marvis 不像一个简单套壳聊天框。
它至少做了几件不像普通聊天框的事:独立客户端、首次场景选择、左侧资源入口、自动任务入口,以及能看到角色分工的多 Agent 工作区。
这些设计让它更像一个桌面 Agent 控制台,而不是普通聊天产品。
但我现在还不会把它称为“贾维斯”。原因很简单:这次只测了下载、界面和一个小任务。真正能拉开差距的是更重的场景,比如整理本地文档、跨网页检索信息、自动生成表格、处理失败状态、连续执行多步任务。
所以我现在只敢下一个小判断:
它有点意思,从指令到打开网页这一段也跑通了,但真正麻烦的任务还没开始测。
下一期我会把任务难度拉高,重点看三件事:
- 本地文档整理:能不能读取和归纳文件
- 网页研究:能不能跨页面检索、筛选和总结
- 任务稳定性:遇到弹窗、浏览器选择、页面变化时能不能恢复
如果这些任务跑得稳,Marvis 才更接近“智能管家”。如果跑不稳,它目前的价值就更像一个设计不错的桌面 AI 控制台。