一图让你看懂小龙虾的核心原理和详细流程,明明白白的养虾!
大家好,我是寒山。
你在微信/飞书/Slack/WebChat 里发一句话,小龙虾为什么能“理解你在说什么”,还能真的去执行(发消息、建任务、查资料),最后把结果发回同一个对话?这件事用一张图就能讲清楚。
1. 先记住一句话
小龙虾不是“聊天机器人”,而是“带工具的个人助理”:它会把你的输入变成一次可执行的行动,必要时会反复调用大模型和工具,直到把事情做完。
2. 图里的 7 个主要方块及主要功能
-
渠道入口:你从任何地方发来的消息(微信/飞书/Telegram/Slack/WebChat/语音等)。
-
Gateway(入口与路由):接住消息,做鉴权/限流/安全检查,把它送到正确的会话。
-
Auto-reply(组装上下文):整理“材料包”,把历史上下文、技能说明、可用工具清单准备好。
-
Memory(长记忆):长期偏好/背景/常用信息。既会被读出来注入上下文,也会在对话后被更新。
-
交互决策模块(Agent Loop):真正“跑流程”的大脑。它会多轮调用大模型,并在中间执行工具、回填结果。
-
大模型(LLM):推理内核,负责理解与决策,输出回复草稿或工具调用请求。
-
Tools:真正做事的工具箱(发消息、建任务、查网页、读写文件、调用节点能力等)。
3. 一条消息的完整旅程(按图走一遍)
-
你发来消息:可能是一句话,也可能带图片/文件/语音。
-
Gateway 接住:它不负责“理解语义”,只负责接入与路由,把消息放到对的对话里,并做好安全与权限的第一道门。
-
Auto-reply 开始整理:
-
合并这次对话需要的历史上下文。
-
把 Skills 生成成“说明书”(告诉模型:现在有哪些能力、怎么用)。
-
计算可用 Tools/MCP 清单(每个工具有什么参数、能不能用)。
-
-
Memory 参与上下文:
-
读:把你的偏好/背景/常用信息注入到“材料包”里。
-
-
交互决策模块开始跑回路:
-
用材料包组织 prompt,然后向大模型发起一次请求(call LLM)。
-
大模型返回两种可能:
-
直接给“最终回复草稿”。
-
或者给出 tool_calls(告诉系统:先去做哪些事)。
-
-
-
如果有 tool_calls:交互决策模块会调用 Tools 去执行,并拿到 tool_result(执行结果)。
-
tool_result 回填后再问大模型:如果任务还没完成,就继续下一轮 call LLM,直到产出最终回复。
-
Memory 被更新:
-
写:把这次对话里值得长期记住的信息沉淀下来,方便下次更懂你。
-
-
最终回复回到原渠道:同一条对话里,你看到的是“答案 + 已完成的行动结果”。
4. 两个最常见的误解
误解 1:Gateway 会先调用一次大模型做初步理解
多数情况下不会。Gateway 更像“总机”,它做的是低延迟、确定性的工作:接入、鉴权、路由、安全与权限。真正的语义理解发生在 Agent Loop 调用大模型的时候。
误解 2:系统会直接‘匹配’某个 skill 然后执行
Skills 更像“写给大模型看的说明书”,不是 Gateway 语义匹配出来的结果。系统会把“允许的 skills 和工具规则”整理好交给模型,由模型决定要不要调用、调用哪个。
现在你明白小龙虾的原理了么?更多AI内容我们下期再讲!