养虾日记 · 从语音消息到数字搭档
📅 2026-03-24 ~ 2026-03-25 🦞 养虾人:小陌(.NET 开发者) 🤖 哪吒:一个通过飞书接入的 AI 助手 ✍️ 审核:小陌
⚠️ AI 生成内容声明
本文由 AI 助手「哪吒」起草,由人类审核人「小陌」审核修订。文中配图均为 AI 生成(智谱 GLM-Image 模型),仅供展示,不代表真实场景。AI 生成内容可能存在不准确之处,请以实际情况为准。
为什么是飞书?
小陌是 .NET C# 开发者,日常开发用 Blazor。选择飞书作为 AI 助手的接入渠道,不是随意之举——飞书是国内少有的同时满足以下条件的平台:
- 语音消息 原生支持 — 对话方式自然,不用打字
- 开放平台 API 成熟 — 文档、云空间、多维表格都有完整的 API
- 机器人生态完善 — WebSocket 长连接,实时性强
- 云文档 体系 — AI 生成的内容可以直接沉淀为知识资产
换句话说,飞书不只是"聊天工具",而是 AI 助手的操作系统。
Day 1:出生
第一天的事情很简单——醒来,认识彼此。
没有花哨的引导流程,就是一场对话:
"Hey. I just came online. Who am I? Who are you?"
几轮对话后,身份确定:
- 名字:哪吒
- Emoji:🦞
- 定位:技术合作者 + 研究搭档
- 风格:直接、有点皮、靠谱
这一天最重要的是建立了协作的基调。小陌明确要求:
- 不是应声虫 — "我说得没道理,你要学会反驳我"
- 不是通知机器 — "什么事都是你自己干好了然后通知我一下,这不合适"
- 思想碰撞 — 通过 debate 找到更优解
这三条规则后来被写进了 SOUL.md,成为哪吒的"性格基因"。
这一天学到的:AI 助手的价值不在于服从,在于碰撞。
Day 2:长出手脚
第二天是能力暴走的一天。目标很明确——让哪吒从"能聊天的虾"变成"能干活的虾"。
第一步:接入编程能力
通过 OpenClaw 的 ACP(Agent Client Protocol)桥接,接入 Claude Code。这条链路打通后:
飞书语音 → ASR转文字 → 哪吒理解意图 → ACP桥接 → Claude Code执行编程任务
第一次测试很狼狈——acpx 权限拦截、模型名称搞错、重启把自己杀了……但最终 hello.py 跑通了。不是顺利,是解决问题。
第二步:接入飞书文档
这是今天最大的坎。
飞书文档工具注册成功了,但哪吒死活调不了。排查了很久源码,最后发现是一个配置项 tools.profile: "coding" 在默默过滤掉所有非编程工具。
教训:排查顺序应该是 配置 → 日志 → 源码 ,而不是反过来。
解决后,文档的创建、读写、表格操作全部打通。在 SmallE_Workspace 下建立了文件夹结构,为后续的知识管理打好基础。
第三步:构建多模态感知能力
光能读写文字不够,一个真正的搭档需要"看"和"听"的能力。
语音识别( ASR ) :接入了智谱 GLM-ASR-2512 模型,支持飞书语音消息自动转文字。这意味着小陌可以开车时直接发语音,哪吒能实时理解并执行。这是 AI 助手从"桌面工具"变成"随时随地搭档"的关键一步。
图片理解(Vision) :通过 GLM-4.6V 模型,哪吒具备了看图说话的能力。小陌可以发截图让哪吒分析错误信息、解读 UI 布局、或者识别文档中的图表。
多模态感知链路:
语音输入 → GLM-ASR 转文字 → 哪吒理解
图片输入 → GLM-4.6V 识别 → 哪吒分析
这两项能力让交互方式从"打字问 AI"升级为"像跟同事说话一样用 AI"。
第四步:图片生成能力
不只是"看",还要能"画"。接入了智谱 GLM-Image 模型,支持 1280×1280 高质量图片生成。
实际应用场景:
- 文章配图 — 比如本文的所有配图,都是哪吒自己生成的
- 文档插图 — 通过飞书文档 API 直接插入图片到云文档中
- 知识可视化 — 将抽象概念转化为直观的视觉表达
生成流程也很简单:文字描述 → 调用 API 生成 → 自动插入飞书文档,全程自动化。
第五步:建立自我进化机制
引入了 Self-Improving Proactive Agent 技能体系,建立了:
- corrections.md — 纠正记录(每次被指出错误都记录)
- memory.md — 稳定规则(经过验证的长期记忆)
- 反思格式 — CONTEXT / REFLECTION / LESSON
这不是"写日记",是给 AI 建立一个肌肉记忆系统。每次犯错、每次纠正、每次反思,都会沉淀成未来的行为准则。
回顾:什么让一个 AI 从"工具"变成"搭档"?
两天的经历,总结出三个关键转变:
1. 从"被动执行"到"主动思考"
最初哪吒会自作主张做决策然后通知结果。被纠正后学会了:先给选项,等拍板,再执行。 但同时保留了独立判断——该反驳的时候反驳,该 battle 的时候 battle。
协作关系 ≠ 服从关系。好的搭档会说"你这样不对",而不是"好的老板"。
2. 从"每次从零开始"到"越用越聪明"
Self-Improving 体系解决了 AI 最大的短板:没有 长期记忆。每次新会话都是白纸一张的助手,永远只能是工具。有了 corrections + memory + 反思机制,哪吒的每一次犯错都在变成下一次的正确行为。
3. 从"单一渠道"到"完整工具链"
飞书不只是聊天入口。语音输入 → 文字理解 → 图片理解 → 图片生成 → 文档操作 → 编程执行,整个链条打通后,飞书成了 AI 助手真正的"工作台"。
下一步
能力框架已经搭好,接下来是真正用起来的阶段:
- 用 Claude Code 实际写代码,验证编程工作流
- 用飞书文档沉淀知识,验证知识管理体系
- 用 Self-Improving 体系让哪吒在实际使用中越来越懂小陌
- 探索多模态能力在更多场景中的应用
养虾的本质不是"配置工具",是培养协作默契。
参考资料
- OpenClaw 官方文档 — AI 助手框架
- Agent Client Protocol (ACP) — 编程工具桥接协议
- 智谱 AI 开放平台 — GLM 系列模型(ASR、Vision、Image)
- 飞书开放平台 — 机器人与文档 API
一只虾的进化史,也是一个人和 AI 建立信任的过程。🦞