作者:瞳尘
引子:报警群的深夜惊魂
凌晨两点,手机屏幕再次亮起。又是那个熟悉的钉钉报警群,红色感叹号跳动着:
🚨 小时级崩溃 PV 预警时间:202603xxxx
阈值:xx
AXX项目 崩溃数:xx,用户数:1
BXX项目 崩溃数:xx,用户数:5
叹了口气,熟练地打开 FBI 报表,一个个核对崩溃栈(backtrace)、查版本分布、翻历史 bug 票……这套动作你已经重复了上百遍。肌肉记忆很完美,但心力交瘁也是真的。
如果有一个“龙虾机器人”,能在收到报警的瞬间自动冲上去分析,把结论直接拍在你脸上,该多好?
名词解释
本文涉及以下名词,方便不太熟悉的同学快速理解:
- FBI:是阿里内部大数据分析和可视化平台。其报表能力支持设置并分析线上预警。
- fbi-claw:我的 FBI 预警分析龙虾名。
- manager:我的 AI 管家,中文名“「二营长」”。他负责管理具体做事的 worker 龙虾,例如管理 fbi-claw。
- MaxCompute(原名 ODPS):阿里提供的云原生大数据计算服务,本文中崩溃相关原始数据存储在 ODPS 数据表中。
- ECS:是阿里云提供的弹性计算服务,即云服务器实例。
- bugman:车线用于崩溃分析的服务应用。
戴着镣铐跳舞——安全红线下的“养虾”梦
想法很丰满,现实很骨感。集团的安全规范像一道铁闸横在面前:内网养虾安全第一,必须做好隔离措施。
这意味着我不能随便拉个开源龙虾就往服务器上怼。我的 claw,难以 open……我得找一个既满足安全合规,又能真正干活的方案。
直到我遇见了 **HiClaw [ 1] **。
HiClaw 是一个完全满足集团内部安全要求的“养虾”方案,已经对外开源。它简直就是为了合法养殖而生!它不生产虾,只提供 OpenClaw 和 CoPow 等的养殖方案。 通过容器隔离等安全手段,让人人可以在公司安全合规的情况下养虾。
「二营长」的大招——Element 房间里的秘密指挥所
1. 单人群设防:我在一个只有自己的钉钉群里,接入了和报警大群一模一样的报警机器人,同时请出了我的 AI 管家——「二营长」(Manager) 。
2. 手动点火:报警机器人发来预警后,我在这个单人群里 @二营长“又崩了,安排人查一下。”
3. 幕后指挥:「二营长」不直接写 SQL,也不懂 backtrace。他的专长是管理。他转身走进一个隐秘的 Matrix 聊天房间,把任务派给了专属 Worker:fbi-claw。
4. 前线突击:fbi-claw 是我亲手培训的 FBI 预警分析专员。他熟读 ODPS 表结构,会自己写 SQL 查数据;他掌握 bugman 服务接口,能一键触发源码级根因分析。
5. 战报回传:fbi-claw 分析完毕,通过普通机器人 Webhook 把结构化报告推回单人群。我一眼看清 Top 版本、Top 堆栈、影响范围。
6. 深度追问:如果我觉得不够,继续在单人群追问:“进一步分析 top1 的问题。”「二营长」原话转达给 fbi-claw,fbi-claw 调用 bugman 接口,吐出更深入的源码分析链接。
7. 大群同步:最后,我让「二营长」把核心结论通过 Webhook 推送到报警大群。全员同步,无需人人去查 FBI。
这条链路完美满足了安全限制:别人不能跟我的龙虾聊天,但龙虾干活的成果可以惠及全团。
HiClaw 帮我在docker 容器中养虾,我在钉钉单人群里跟大管家“「二营长」”沟通。虾们在 Element 房间中沟通协作,后续截图里面的 jcr 和 admin 都是我(Element 不支持中文名)。
授“虾”以渔——给龙虾装上 Skills 的翅膀
fbi-claw 不是天生就会分析崩溃的。他的本事,是我一点点教出来的。就像带新员工一样。
在 Element 房间里,我提供必要的能力脚本,「二营长」负责发布任务(Task 文档),fbi-claw 负责消化并沉淀为 Skill。我们一来一回,定制了几个核心 Skill。
odps_tools:查 odps 表
基于 odps python SDK 开发的脚本,提供 odps 查询能力。让 fbi-claw 基于这个脚本写好 Skill。后续在需要查表时调用即可。
crash-alert-analysis:预警分析
收到预警先别慌,按四步走:
1. 提取参数(从报警信息中获取报表字段)
2. 查崩溃预警 odps 表获取渠道信息
3. 查具体崩溃信息 odps表抓 Top 3 崩溃版本
4. 查同一张表揪出 Top 3 崩溃堆栈
支持白名单机制,判断已知问题,便于评估影响。
其中涉及 odps 查表能力时调用 odps_tools。
bugman-analysis:源码级根因挖掘
光看堆栈不够,得知道代码哪一行出了问题。fbi-claw 会调用 bugman API,区分两种模式:
- 快速分析:默认模式,只针对 backtrace 栈帧代码块单轮分析,好处是快速返回报告和源码信息。
- 深度分析:加上
deep_code=1参数,使用 plan-and-execute + reAct 模式进行多轮分析,基于 tree-sitter 和 clangd 对源码进行仓库级语义分析,适合疑难杂症。
注:bugman 就是之前文章中提到的 crashman 所在的 python 服务名。当然本文它不是主角~
ding-sync-tool:战报速递员
分析完不能只留在 Element 房间里。fbi-claw 内置了钉钉 Webhook 推送脚本,自动把分析报告甩进钉钉群。
“虾传虾”现象——协作的力量
有人可能会问:既然 fbi-claw 这么能干,我为什么不直接在 Matrix 里跟它单聊?非要让「二营长」在中间传话,图啥?
说实话,一开始我也只是为了规避 HiClaw 早期的一个 bug:manager 的 IP 变化后必须 rm 掉 worker 的容器重新run,这就导致我给 worker 配置的钉钉插件丢失。可能我去会议室开个会(离开了我工区的路由器范围)回来的功夫我的 manager IP 就变了,我的 worker 就直接失联了。
注:最新版 HiClaw 已修复,详见 PR(github.com/agentscope-… )。
但后来,我发现这样更合理。「二营长」不只是个传声筒,他是调度中心。他负责找到专业的人做专业的事。今天我只有 fbi-claw 这个专门分析 FBI 预警的 worker,明天我可能会有用来分析车道级问题的 claw,「二营长」负责统一调度。我联系他一个人,相当于唤醒了一整个团队。
除此之外,我更看重的是 Agent 间相互协作的力量。大家是否经常遇到这样的情况:当分析一个问题百思不得其解时,与其他人讨论一下就可能灵光乍现!一个人独自分析容易陷入死胡同,我们需要其他人的输入跳出死循环。
另外,当前钉群机器人不支持机器人之间相互 at,因此我把其他 worker 拉进群意义不大。我让「二营长」去 Matrix 房间与他的团队成员进行讨论。他们在一起相互讨论可以解决很多问题。
他也可以帮我进行一些 double check,
有意思的是他们偶尔也会商业互吹,哈哈!
当然,也有出 bug 的时候,
还好我发现及时,不然让他们这样在群里相互待命一晚上,第二天我岂不是要参加节目《Token 去哪儿了》?
“虾”搞得怎么样——来吧,展示
报警分析效果
【FBI预警处理结果】进展同步
项目:AXX
时间:2026-03-26 16:00
崩溃数:xx | 影响设备数:0
**Top 版本**:x.xx.xx.x(xx次,占比100%)
**Top 堆栈(xx次,占比83%)**:
libc.so.6(+0x42520)
libGAdasSDK.so(+0x1f5cc0)
libGAdasSDK.so(+0x1a3585)
libGAdasSDK.so(+0x245816)
...
**初步结论**:
- 设备数为0,崩溃集中在单一版本 X.XX.XX.X
- 主堆栈特征:xxxxxx
我可以追问一些固定流程之外的问题,例如为什么设备数是 0?让 fbi-claw 进行分析,
【FBI预警排查结果】进展同步
项目:AXX
时间:2026-03-26 16:00
**设备数=0 根因分析**
**原始日志字段核查:**
- parm1:xx条全为 NULL(0条非空)
- parm2:xx条全为 NULL
**历史对比(近 48 小时):**
| 时间段 | 崩溃数 | 设备标识非空数 |
|--------|--------|-----------|
| 03-26 16:00 | 24 | 0 |
| 03-26 15:00 | 22 | 0 |
| 03-26 14:00 | 2 | 0 |
| 03-25 22:00 | 15 | 0 |
| 03-25 11:00 | 3 | 3 ← 少数正常上报 |
✅ **结论**:AXX 项目的崩溃数据上报管道存在缺陷,设备标识为空。该批崩溃可能来自测试/仿真环境或数据采集链路异常,无法关联到具体实车设备。建议联系数据平台团队排查上报逻辑。
对于已知问题支持“嘴动”加白,
下次再遇到他会这么说,
项目 1: BXX(项目级全忽略)
项目名称:BXX
项目编号:XXXXXXXX
崩溃数:16
影响设备数:15
⏭️ 跳过详细分析
忽略级别: 项目级全忽略(version=all,
key_frame=all)
原因: 近 30 天项目整体崩溃率 x.xx%,高德 SDK 崩溃率仅
0.xx%,97.93% 为非高德崩溃。
如果我要求他进一步分析问题,
就可以让他触发 bugman 请求,并通过普通机器人 webhook 告诉我分析结论,
我可以选择让「二营长」将分析结论推送到报警大群,同步其他人。
尾声:人机协作,不止于快
这套“单人群报警(与大群报警内容一样) → @「二营长」 → Matrix 派活 → 专业worker 分析 → Webhook 回传 → 追问深挖 → 大群同步”的链路,跑通之后,我的日常彻底变了。
以前:报警响 → 开电脑 → 查表 → 翻代码 → 写结论 → 发群。
现在:报警响 → 手机敲一句 @「二营长」 查一下 → 喝口水 → 报告已躺在钉钉群里。工时 2 分钟,过程透明,可追溯。
AI 没有取代我,它只是把我从重复劳动里解放出来,让我有精力去思考更深层的问题:这个版本的 SDK 为什么频繁崩溃?是不是架构设计有隐患?
养虾的乐趣,大概就在于此吧。看着它们在你的规则下有序运转,产出价值,而你只需坐在岸边,喝着咖啡,偶尔抛下一句:“进一步分析下 top1。”
然后,静候佳音。
一些感触:古法码字,纯人手打造
本文前面的部分 AI 味十足,初版内容是让「二营长」使用钉钉文档 MCP 写的,我做了一些补充和调整。AI 写的确实快,但是缺少了温度。因此这一章节我想古法写作——纯手打(但是下图是 AI 生成的)。
(图片来自网络+AI 修图)
不变的思想
半年前,我用 LangGraph 开发了 bugman(SDK 崩溃问题分析的AI 应用)。实现的效果是工作流串联历史工程平台,替代人工重复式工作,通过 llm call 进行崩溃栈各栈帧代码块分析并总结报告。下半年在此基础上改造成了 plan-and-execute 和 reAct 模式的 Agent,增加了多轮能力,引入 tree-sitter 和 clangd 提升 Agent 对语义的理解和仓库级代码的分析能力,以提升最终分析效果。
深刻感受到的是这些都是在优化大模型的上下文,让大模型看到更好的上下文信息,来提升最终智能效果。这些思想与现在的各种虾其实异曲同工。“虾”们通过各种 markdown 文档管理上下文信息,以 Openclaw 为例,AGENTS.md 管理主流程,SOUL.md 记录虾的人设,USER.md 记录人类信息,HEARTBEAT.md 记录定时任务,MEMORY.md 记录长期记忆(也会在 memory 文件夹中记录每天的短期记忆 2026-03-xx.md),Skills 中的各种 md 记录工具的用法…… 这些都是通过对上下文的管理提升 Agent 最终的智能体验。当我们跟“虾”们聊天时,从后台日志可以看到他也在 plan 和 reAct……
更人性化的体验
“虾”们的表现更像人了。虽然原理上还是那些,但是“虾”们的表现确实更智能了。例如之前我用 LangGraph 开发工作流,分析预警的流程都是固定的,而现在我可以追问 OpenClaw 为什么这个崩溃的用户数是 0?他有了 odps_tools 就可以举一反三,查表告诉我原因是这些崩溃上传的设备参数为空。也许你会说这使用 LangGraph 的 interrupt 机制让 human in the loop 一样可以实现。但是 OpenClaw 的玩法让我感觉更像是培训新员工后他可以举一反三,我是在跟人交流而不是代码。
团队协作的想象空间
上文提到过,我们很多时候自己分析问题容易陷入死循环,跟其他人一起讨论可以相互启发,往往能更好得解决问题。HiClaw 的机器人在 Element 房间中的互动确实惊艳到我了。现在各种 AI Coding 软件都有 Agent Team 能力,对于问题分析场景其实也类似。类比 Human In The Loop,未来应该是 Human In The Team(我编的),人类和 Agent 一起团队协作。所以 Agent 之间的讨论要在 IM 群里进行,人类可以看到 Agent 在干啥,也可以更好地参与其中,甚至应该禁止 Agent 之间在背后搞小动作(直接 A2A 协议交互也许更高效,但对人类不友好)。
当前我是按照工作职责划分的 Agent 员工,例如「二营长」(manager)主要负责协调人力,fbi-claw 负责专业的预警分析,类似人类团队项目管理和研发人员的配置。但是这并不一定就合理。只是目前在钉钉机器人不支持相互 at 的能力之前的一种妥协。如果后续钉钉可以支持机器人之间的 at,我完全可以让普通的报警机器人直接触发龙虾机器人分析报警,真正解放双手~
有人说合理的员工划分也许更应该是基于上下文,我觉得有一定道理。这里的上下文包含长期记忆,类比人类就是团队中大家各有所长。我的本意并不想制造信息差让「二营长」做我的发言人,他的价值体现在统筹能力,他了解所有 worker 的能力,可以帮我找到专业的人做专业的事。我的目的是激发整个团队的活力!
真正的尾声
也许有一天虾们真的可以完全代替人类的工作,他们通过交流沟通来实现团队能力的升级进化。opc(一人公司)的时代不远了,但打工人没有消亡,只是被“蒸馏”成了 token,变成了一个个数字人……
结尾广告:推荐大家关注 HiClaw Team **方案 [ 2] **,创建自己的 AI 团队。
相关链接:
[1] HiClaw
[2] HiClaw Team 方案