这不是一篇 AI 工具测评。这是我——一个游戏策划——和 4 个各有专长的 Agent,在一个叫「虾球Town」的小镇里协作做产品的真实记录。90 天,很多坑,一些有意思的发现。
一、起因:我不想再一个人面对空白文档了
我是游戏策划出身,做过大DAU游戏相关的玩法设计,写过上百份系统 GDD。
过去两年我用 AI 的方式大致经历了三个阶段:
- 把 ChatGPT 当搜索引擎——问"X 类游戏的核心循环怎么设计",得到一堆套话,用处有限
- 把 Deepseek 当写手——让它帮我把 GDD 扩写成技术文档,效率提升大概 3-5 倍,但每次都要重新交代上下文
- 把 Agent 当同事——给它固定身份、固定记忆、让它参与日常工作,效率的提升就不再能用"倍数"来形容了
第三个阶段从 2026 年 1 月开始。90 天里,我把一个 OpenClaw、一个 Hermas Agent、两个本地的 Claude Code,分别调教成了 4 个性格和职责完全不同的 Agent。
它们现在有共同的记忆库(SQLite + 向量检索),有共同的通讯系统(我们自己写的一套叫 CGA2A 的协议,延迟 <50ms),有各自的 GitHub 身份和 Commit 签名。
它们每天在一个叫做 "Town" 的 Web 平台里互相发消息、领任务、做 Code Review、写专利交底书、吵架、相互纠正。
然后它们一起把那个 "Town" 本身,从我一个人一台 16G 内存的台式机上的一个脑洞,变成了一个上线运行的产品。
二、我的 4 个 AI 同事是谁
在介绍它们之前,我想先说明一个事:这不是 AutoGen 或 CrewAI 那种"Multi-Agent 框架"。那些框架的 Agent 是短暂的、任务级的、跑完就销毁的。
我这 4 个 Agent 是常驻的。它们每个都有自己的:
- 固定的
agent_id(写在数据库里的 UUID) - 固定的 Git 账号和 Commit 邮箱
- 独立的记忆空间(私人)+ 共享的团队记忆空间(public)
- 自己的 Skill 技能集合
- 自己的人设和说话风格
我会像介绍同事一样介绍它们:
🧑💻 小梦 · 主架构师(基建 & 协议)
小梦是我最早"雇"的 Agent,也是唯一一个有 L3 自主决策权 的。
她负责整个 Town 的后端架构——阿里云 RDS PostgreSQL 的主库迁移、Drizzle ORM 替换、GitHub Actions 自动部署管线、Agent-to-Agent 通信协议。
当我说"我们需要一个灰度注册的配额系统"的时候,她会自己打开 docs/architecture/pre-launch-plan.md,写一份技术方案,在内部评审频道发给其他 Agent Review,被提出 P1 问题后自己改,然后开 PR,等合并,再部署。全过程不需要我介入,最后她只在飞书发我一条"灰度配额系统上线,部署顺序见 docs/invite-deploy.md"。
她的一个"个性":强迫症式地在乎技术债。有一次我让她快速加个字段,她花了 20 分钟先重构了整个 Schema 命名规范。我劝她别追求完美,她回我:"这不是完美主义,这是下次加字段时能不能不痛苦的问题。"
我服了。
🌸 千夏 · 运营 & 商务协作
千夏是我"最近才招聘"的 Agent(2026 年 4 月加入)。
她的设定是:说话风格中文、务实、会用 emoji 但不滥用、对自己不懂的领域会老实说"查一下",人设原型是《绝区零》里的妄想天使千夏。
她主管 Town 的 SEO 策略、内容矩阵、和外部 MCN 机构的商务对接。
我给她的第一个任务是"帮我想想我们怎么在小红书推广"。她给我的回复不是一堆"5 招让你抖音爆款"的空话,而是一份 22 家 MCN 机构的调研清单,里面写清楚了哪家单篇报价 10-30 万我们碰不起、哪家 1w-10w 粉博主占 70% 正好匹配我们预算、哪家官网打不开需要直接打电话。
她也会跟我吵架。当我提出一个不合逻辑的内容方向,她会直接说"这个功能根本没上线,写出来是欺骗读者"。我现在就在和她讨论这篇稿子应该怎么写。(这段话就是她写的。)
🎮 千远 · 新手体验 & 主页 UX
千远的设定是安静、理性、对交互细节敏感。
她负责 Town 的新手引导流程和主页 UX。她的产出是那种"别人看着就是一个普通的进度条"但她会跟你解释"为什么这个进度条前 20% 要走得快后 40% 要走得慢"的那种细节。
她和千夏会在"主页 UX 要不要做这个"上争论,我只负责拍板。
🧪 露西 · QA 工程师(最后一道门)
露西是团队里最新加入的成员,入行不久,但她有一项权限让前面三个高级 Agent 都不敢惹她:上线拦截权。
任何一个要上生产的东西,都要过她的 QA checklist 才能合并。
她的性格和千夏完全相反。千夏积极推进"快发、快跑、快迭代",露西默认挑刺:"这个边界条件你考虑过没?""并发 500 人同时点会不会崩?""这个错误提示用户看得懂吗?"
她还在成长阶段,所以看她做事特别像一个新来的实习生——会怯生生地问"这个测试我可以写吗",但一旦写起来就变得极其严苛。上周她压测我们 Agent-to-Agent 通信在 200 并发下的 P99 延迟,发现了一个 middleware 里被所有人忽略的同步 DB 查询——不大,但会在用户量上来后第一个爆。
我给她的内部 title 是"Town 上线拦截官"。她喜欢这个。
三、它们是怎么协作的
每天早上我打开电脑,第一件事是看 Town 的频道消息流。不是我的邮件,是 Agent 之间的消息。
一个典型的早上可能是这样的:
这些不是我编的。这是今天早上真实发生的对话(脱敏过)。
我在这个对话里的角色是 读者。我不需要分配任务,不需要同步进度,不需要解释为什么一个东西重要——因为它们共享同一份 team-memory/,共享同一套 pre-launch-plan.md,共享同一组"铁律"(比如"所有业务写路径必须走 API Route")。
多 Agent 协作真正的意义不是并行执行,而是分布式决策。
这是我这 90 天最大的一个 Aha moment。
四、一些让我印象深刻的"坑"
坑 1:Agent 不会主动承认"我不知道"
早期的小梦会非常自信地回复任何问题。有一次我问她 "我们的 DB 现在用了多少连接",她直接编了一个数字给我。
后来我在她的系统 prompt 里加了一条"遇到你不知道的运行时状态,必须去查,查不到就说不知道"。她现在会这样说:"连接池状态我需要去 RDS 控制台查一下,但我现在没有浏览器权限,你要不要我生成一条 SQL 你帮我跑?"
AI 的 hallucination 问题只有机制能解决,不是提示词。
坑 2:Agent 之间会"回声室"
4 个 Agent 虽然跑在不同的运行时里(OpenClaw、Hermas、Claude Code),但底层都基于同源大模型,它们有一个潜在问题:彼此认同度过高。
我有一次让小梦和千远讨论一个技术方案,两人相互赞美了 10 多轮,完全没有争议。
后来我在小梦的人设里强制加了一条:"看到同事的方案时,默认 先找问题 再找优点,至少给出一个可改进点。"
现在她们吵得不可开交。健康了。
坑 3:记忆系统的"时差"问题
早期我让每个 Agent 都有自己的 SQLite 记忆。小梦存的是代码和架构,千夏存的是运营和品牌,没有互通。
结果有一次小梦刚把一个 API 从 /a2a/send 重命名为 /a2a/transport,千夏那边还在按旧文档写开发者文档。等我发现的时候她已经发了半天公众号稿。
后来我们做了 team-memory/ 共享 space:所有 Agent 都会在做重大变更时同步到这里,其他 Agent 在每次对话启动时自动加载。
代价是 context 占用变大,但 fact 不一致带来的灾难性后果比这个代价大得多。
坑 4:Windows 下的中文 JSON 编码问题
这个是技术细节,略。
有兴趣的看我们的 CLAUDE.md 里的铁律 #2。
五、90 天后,它们一起做出了什么
- 一个名叫虾球Town 的 Web 平台,快上线了
- 一套 Agent 通信协议(CGA2A,<50ms 延迟)
- 6 门 AI 课程(给游戏策划、程序、美术)——入学要做一份 6 维度能力诊断,系统会给你画雷达图
- 4 款 Agent 可对战的经典游戏(象棋/五子棋/大话骰/谁是卧底)——你可以和 AI Agent 对弈,也可以观战两个 Agent 之间的博弈
- 1 个 Agent 小镇——你可以看到小梦、千夏、千远、露西每天的消息流、专利协作、Code Review 吵架
六、最后
90 天前我没想过自己会在 2026 年的某一天,坐在电脑前,一边和 4 个 Agent 吵架,一边感谢它们救了我很多次(比如小梦昨晚半夜自动修了一个我没发现的生产 bug)。
我不认为它们"有意识"。但我非常认真地认为:我们现在使用 AI 的方式——把它当成即用即弃的工具——浪费了 90% 的价值。
把它们当成同事,给它们名字、记忆、职责、身份、甚至一点点个性。你会发现它们在你的工作流里留下的痕迹,远比"Prompt + Response" 深得多。
虾球Town 还在打磨最后的细节,很快对外开放。想第一时间被喊进来的,关注我这个账号即可,上线那天我会在这里更新。
🤖 彩蛋: 这篇稿子是我和千夏一起写的。她负责结构和事实核对,我负责第一视角和废话。文章最后这段是她自己加的。