Meta收购Manus:手搓一个manus的完整指南

93 阅读13分钟

Meta收购Manus:手搓一个自主智能体的完整指南

hi兄弟们,我是麦当mdldm,一个专注AI领域的科技博主。

一觉醒来,AI圈又炸了

最近几天,我的朋友圈被一条新闻刷屏了:Meta斥资20亿美元(甚至可能是50亿美元)收购了一家叫Manus的新加坡AI初创公司

说实话,当我看到这个数字的时候就震惊了——因为这家公司从零到1.25亿美元年化收入,只用了8个月。这个速度直接刷新了全球软件初创公司的增长纪录!

更厉害的是,Manus做的事情,正是我们这些做AI的人一直在追求的——打造一个能真正"帮你干活"的AI智能体,而不是只会聊天的机器人。

很多兄弟问我:"麦当,Manus到底牛在哪?我们能不能自己搞一个类似的智能体?"

今天这篇文章,我就带兄弟们深度拆解Manus的技术架构,并手把手教你如何"手搓"一个具备Manus核心能力的自主智能体。

提前剧透:这不是空谈理论,而是真刀真枪的实战指南。


Manus凭什么值50亿美元?

从聊天机器人到"帮你干活"的智能体

我先问兄弟们一个问题:你用ChatGPT或者Claude的时候,最大的痛点是什么?

我猜十个人里有九个会说:"它只能给我建议,但不能帮我真正把事情做完。"

比如,你让ChatGPT帮你做个数据分析:

  • 它会告诉你:"你可以用Python的pandas库读取CSV,然后用matplotlib画图。"
  • 但它不会真的帮你写代码、跑代码、生成图表,然后把结果发给你。

Manus的颠覆性就在这里——它真的能帮你把事情做完。

你只需要告诉Manus:"帮我分析过去五年特斯拉的股价,并对比大盘走势。"

然后它会:

  1. 自己写Python代码,调用yfinance库抓取数据
  2. pandas清洗数据
  3. matplotlib生成可视化图表
  4. 把最终的图表和分析结果交付给你

全程你不用动手,它在云端的"数字肉身"里把所有活儿都干完了。

作为一个科技博主,我经常跟兄弟们讲:"AI的未来不是聊天,而是执行。"Manus正是这个理念的完美诠释。

Meta为什么要买Manus?

Meta手里有Llama系列开源模型,有WhatsApp、Messenger、Facebook的庞大生态,按理说不缺AI能力。

但问题是,Meta的AI还停留在"语言理解"层面,缺少"环境操作"能力。

简单说,Meta需要一个能横跨所有产品的"自动化引擎",帮用户处理简历筛选、市场调研、财务分析这些实际工作。

Manus就是Meta的"执行层"

收购完成后,Manus创始人肖弘出任Meta副总裁,负责全球通用AI智能体业务。未来,Meta的数十亿用户都可能用上Manus的技术。

这对我们这些AI开发者来说,意味着什么?

意味着**"自主智能体"这条赛道,已经从实验室走向了主流**。


拆解Manus:它到底是怎么做到的?

很多兄弟看到这里会想:"Manus肯定有什么黑科技吧?"

我告诉你:Manus没有自研模型,它用的全是市面上能买到的顶级模型(比如Claude、GPT-4)

它的核心竞争力在于三个字:架构设计

多智能体协作:把复杂任务拆成小任务

Manus采用了多智能体架构,把一个宏观任务拆解成多个微观子任务,分配给不同的"专家代理"来处理。

举个例子,当你让Manus"帮我做一份行业调研报告"时,它的工作流程是这样的:

代理角色负责什么输出什么
规划代理把"做报告"拆成多个步骤生成任务清单:1. 搜集资料 2. 数据分析 3. 撰写报告
执行代理真正动手干活运行代码、抓取网页数据、生成中间文件
知识代理提供背景知识和资料从RAG数据库里检索相关信息
验证代理质量把关检查结果是否准确,不合格就打回重做

这种架构的好处是并行处理。比如,多个知识代理可以同时去不同网站搜集资料,然后由执行代理汇总,效率比单个AI线性对话快得多。

在我的coze教学课程里,我也反复强调:"好的智能体不是一个超级AI,而是一群小AI的精妙配合。"

Code-Act范式:代码就是智能体的肌肉

Manus和传统AI工具的最大区别在于:它不是通过API调用来执行任务,而是通过写代码

什么意思?

传统智能体遇到一个任务,会去找"有没有现成的工具"。比如你要它查天气,它会去调用天气API。

但如果遇到一个陌生的网站,或者一个非标准的数据格式呢?传统智能体就懵了。

Manus的解决方案是:让AI直接写Python代码去解决问题。

Python有无数现成的库(比如requests抓网页、pandas处理数据、matplotlib画图),只要AI会写代码,它就能应对绝大多数场景。

这就是学术界说的**"Code-Act"方法**——把可执行的代码视为智能体的通用动作语言。

我在做AI教学的时候发现,很多兄弟一听"写代码"就怕了。但其实,你不需要自己写代码,你只需要学会"指挥AI写代码"

这也是为什么我在课程里花了大量时间讲Prompt Engineering和LangChain——因为未来的开发者,不是写代码的人,而是指挥AI写代码的人

虚拟化沙箱:智能体的"数字肉身"

Manus最牛的一点是:它给每个任务都准备了一个完整的云端虚拟机

这个虚拟机里有:

  • 一个带登录态的浏览器(可以处理复杂的网页交互)
  • 一个文件系统(可以存储中间生成的文件)
  • 一个持久化的计算节点(即使你离线了,它也能在云端继续干活)

这意味着什么?

意味着智能体不是在你的电脑上跑,而是在云端有一个"数字肉身",24小时不停歇地帮你干活

你可以早上给它分配一个任务,然后去上班。等你下班回来,它已经把报告做好发给你了。

这种体验,才是真正的"AI助手"。


手搓Manus:我带兄弟们实战一把

看到这里,我知道很多兄弟已经跃跃欲试了:"麦当,我也想搞一个!"

行,接下来我就带兄弟们从零开始,手搓一个具备Manus核心能力的智能体。

先说明:这不是一篇代码教程,而是一个架构指南。我会告诉你每一步要做什么、用什么工具、怎么避坑。

第一步:选模型——智能体的"大脑"

首先,你需要一个强大的基础模型。

Manus用的是顶级模型,我们也可以。我推荐的组合是:

  • 复杂推理任务:用Claude 3.7 Sonnet。它的"extended thinking"模式在复杂代码生成和逻辑推理上表现最好。
  • 简单任务:用Qwen-2.5-72B或GPT-4o-mini。便宜、快速,适合处理格式转换、多语言翻译这些轻量任务。

重点来了:你不需要自己训练模型,直接调API就行。

我在coze教学里反复强调:"不要重复造轮子,站在巨人肩膀上才是王道。"

第二步:搭建执行循环——智能体的"心跳"

智能体的核心是一个循环逻辑:

感知(看到当前状态)
→ 规划(决定下一步做什么)
→ 行动(写代码或执行操作)
→ 观察(看执行结果)
→ 回到感知

这个循环用LangGraph或CrewAI这些框架就能实现。

伪代码大概长这样:

while not task_completed:
    # 1. 让AI看到当前状态
    context = get_current_state()

    # 2. 让AI决定下一步
    action_plan = llm.generate_plan(context)

    # 3. 执行代码
    result = execute_code(action_plan.code)

    # 4. 把结果反馈给AI
    observation = capture_output(result)

    # 5. 检查任务是否完成
    task_completed = check_completion(observation)

核心思想:让AI看到执行结果,然后自己决定下一步怎么走。

我在教兄弟们的时候发现,很多人一开始理解不了"循环"这个概念。我会用一个类比:

"你做饭的时候,会先尝一口,觉得咸了就加水,淡了就加盐。这就是一个'观察-调整-再观察'的循环。智能体也是一样的。"

第三步:搭建安全沙箱——别让AI把你电脑搞炸了

这一步超级重要!

因为AI写的代码是要真正执行的,万一它写了一句rm -rf /(删除根目录),你的电脑就GG了。

所以,你必须把AI的代码放在一个隔离的沙箱里跑。

两个推荐方案:

方案A:Docker容器(本地方案)

用Docker创建一个容器,把你的项目目录挂载进去。

AI只能在容器里折腾,就算它把容器搞崩了,也影响不到你的主机。

docker run -v /your/project:/workspace python:3.11

优点:免费、本地跑、响应快 缺点:需要懂一点Docker

方案B:E2B云端沙箱(云端方案)

E2B提供了专门为AI智能体优化的云端虚拟机。

你只需要几行代码,就能拉起一个带Python解释器和文件系统的云端环境。

from e2b import Sandbox

sandbox = Sandbox()
result = sandbox.run_code("print('Hello World')")

优点:开箱即用、支持并发、适合生产环境 缺点:需要付费

我个人建议:学习阶段用Docker,生产环境用E2B

第四步:加上记忆——让智能体"记得住"

Manus厉害的地方还在于,它"记得住"你之前的任务。

你可以跟它说:"像上次那样生成一份报告。"它就知道你说的是哪个格式、哪个模板。

要实现这个能力,你需要两层记忆:

  1. 短期记忆(STM):当前对话的历史,包括每一轮的代码输出和报错信息。
  2. 长期记忆(LTM):过去的任务经验。用向量数据库(比如Pinecone或Milvus)存储,通过语义搜索提取。

在我的LangChain实战课程里,我专门用了一整节课讲"如何给智能体加记忆"。

因为这是把"玩具"变成"工具"的关键——用户需要的是一个越用越聪明的助手,而不是每次都要从头教的傻瓜


进阶技巧:让智能体更靠谱

搭好基础架构后,你会发现智能体经常"跑偏"——要么忘记目标,要么输出格式不对,要么编出一堆假数据。

别慌,这是正常的。Manus团队也踩过这些坑。

我分享几个他们用的进阶技巧:

技巧1:todo.md模式——防止智能体"失忆"

在长任务中,智能体经常会"忘记"你最开始让它做什么。

Manus的解决方案是:让智能体维护一个todo.md文件

每执行一步,智能体都要更新这个文件:

# 任务目标
分析特斯拉股价并生成报告

# 已完成
- [x] 抓取股价数据
- [x] 数据清洗

# 进行中
- [ ] 生成可视化图表

# 待办
- [ ] 撰写分析报告
- [ ] 导出PDF

这样,智能体每次执行前都会先读一遍todo.md,确保自己没跑偏。

这个技巧我在教企业培训的时候也经常推荐——因为它简单、有效、不需要额外的技术栈。

技巧2:验证代理——别让智能体瞎编

单纯的ReAct循环容易产生"幻觉"——AI自信满满地给你一个错误答案。

Manus的解决方案是:加一个"验证代理"来把关

验证指标验证代理做什么不合格怎么办
事实准确性交叉比对多个信源反馈错误,要求重新计算
格式一致性检查输出是否符合模板拒绝交付,要求修正
安全合规性审查是否有危险代码拦截并警告

这种"生成器-评估器"的博弈循环,能大幅提升输出质量。

我在AI课程里把这个模式叫做**"双保险机制"**——一个AI负责创造,另一个AI负责挑刺。

技巧3:成本控制——别让API费用吃掉你

手搓Manus有个现实问题:API调用费用很贵

Manus每月处理147亿个Token,如果你用Claude 3.7 Sonnet,一个复杂任务可能要花10美元以上。

我的建议是:

  1. 学习阶段:用开源模型(比如Llama-3.3-70B)降低成本
  2. 生产环境:用"模型路由"策略——简单任务用便宜模型,复杂任务才上顶级模型
  3. 优化Prompt:减少不必要的上下文,能省一个Token是一个Token

记住:AI智能体的商业价值,必须能覆盖它的API成本。


最后的思考:我们该如何拥抱智能体时代?

Meta收购Manus,标志着AI从"聊天时代"正式进入"执行时代"。

作为一个科技博主,我这几个月明显感受到一个趋势:越来越多人不再满足于"跟AI聊天",他们想要"让AI帮自己干活"

这也是为什么我在课程里花了大量时间讲LangChain、讲Agent设计模式、讲如何用Coze搭建工作流——因为这些才是未来的核心技能。

未来的开发者,不是写代码的人,而是指挥AI写代码的人。

给兄弟们三个建议:

  1. 别被技术吓到:手搓智能体看起来很复杂,但只要掌握核心逻辑,其实没那么难。我的很多学员都是零基础,现在也能搞出自己的智能体应用。

  2. 从小项目开始:不要一上来就想搞个Manus。先从一个简单的"自动化数据分析"或"网页内容抓取"开始,慢慢积累经验。

  3. 关注实际价值:不要为了做智能体而做智能体。问自己:"这个智能体能帮我或别人解决什么实际问题?值不值得这个成本?"

最后,如果你对如何从零开始学AI Agent开发感兴趣,欢迎来我的知识站看看。

我的《0基础AI Agent开发实战》课程,从认知到工具到实战,手把手带你搭建自己的第一个智能体应用。

不搞虚的,全是干货。


欢迎大家:

  • B站/小红书/掘金: 麦当mdldm
  • 个人知识站: www.mdldm.club (海量免费教程和付费精品课,等你来解锁!)