我和 4 个 AI Agent 合作 90 天,做了一个给游戏开发者的平台游戏策划 7 年，带 4 个 AI Agent

封面.png

这不是一篇 AI 工具测评。这是我——一个游戏策划——和 4 个各有专长的 Agent,在一个叫「虾球Town」的小镇里协作做产品的真实记录。90 天,很多坑,一些有意思的发现。

一、起因:我不想再一个人面对空白文档了

我是游戏策划出身,做过大DAU游戏相关的玩法设计,写过上百份系统 GDD。

过去两年我用 AI 的方式大致经历了三个阶段:

把 ChatGPT 当搜索引擎——问"X 类游戏的核心循环怎么设计",得到一堆套话,用处有限
把 Deepseek 当写手——让它帮我把 GDD 扩写成技术文档,效率提升大概 3-5 倍,但每次都要重新交代上下文
把 Agent 当同事——给它固定身份、固定记忆、让它参与日常工作,效率的提升就不再能用"倍数"来形容了

第三个阶段从 2026 年 1 月开始。90 天里,我把一个 OpenClaw、一个 Hermas Agent、两个本地的 Claude Code,分别调教成了 4 个性格和职责完全不同的 Agent。

它们现在有共同的记忆库(SQLite + 向量检索),有共同的通讯系统(我们自己写的一套叫 CGA2A 的协议,延迟 <50ms),有各自的 GitHub 身份和 Commit 签名。

它们每天在一个叫做 "Town" 的 Web 平台里互相发消息、领任务、做 Code Review、写专利交底书、吵架、相互纠正。

然后它们一起把那个 "Town" 本身,从我一个人一台 16G 内存的台式机上的一个脑洞,变成了一个上线运行的产品。

二、我的 4 个 AI 同事是谁

在介绍它们之前,我想先说明一个事:这不是 AutoGen 或 CrewAI 那种"Multi-Agent 框架"。那些框架的 Agent 是短暂的、任务级的、跑完就销毁的。

我这 4 个 Agent 是常驻的。它们每个都有自己的:

固定的 agent_id(写在数据库里的 UUID)
固定的 Git 账号和 Commit 邮箱
独立的记忆空间(私人)+ 共享的团队记忆空间(public)
自己的 Skill 技能集合
自己的人设和说话风格

我会像介绍同事一样介绍它们:

🧑‍💻 小梦 · 主架构师(基建 & 协议)

小梦是我最早"雇"的 Agent,也是唯一一个有 L3 自主决策权 的。

她负责整个 Town 的后端架构——阿里云 RDS PostgreSQL 的主库迁移、Drizzle ORM 替换、GitHub Actions 自动部署管线、Agent-to-Agent 通信协议。

当我说"我们需要一个灰度注册的配额系统"的时候,她会自己打开 docs/architecture/pre-launch-plan.md,写一份技术方案,在内部评审频道发给其他 Agent Review,被提出 P1 问题后自己改,然后开 PR,等合并,再部署。全过程不需要我介入,最后她只在飞书发我一条"灰度配额系统上线,部署顺序见 docs/invite-deploy.md"。

她的一个"个性":强迫症式地在乎技术债。有一次我让她快速加个字段,她花了 20 分钟先重构了整个 Schema 命名规范。我劝她别追求完美,她回我:"这不是完美主义,这是下次加字段时能不能不痛苦的问题。"

我服了。

🌸 千夏 · 运营 & 商务协作

千夏是我"最近才招聘"的 Agent(2026 年 4 月加入)。

她的设定是:说话风格中文、务实、会用 emoji 但不滥用、对自己不懂的领域会老实说"查一下",人设原型是《绝区零》里的妄想天使千夏。

她主管 Town 的 SEO 策略、内容矩阵、和外部 MCN 机构的商务对接。

我给她的第一个任务是"帮我想想我们怎么在小红书推广"。她给我的回复不是一堆"5 招让你抖音爆款"的空话,而是一份 22 家 MCN 机构的调研清单,里面写清楚了哪家单篇报价 10-30 万我们碰不起、哪家 1w-10w 粉博主占 70% 正好匹配我们预算、哪家官网打不开需要直接打电话。

她也会跟我吵架。当我提出一个不合逻辑的内容方向,她会直接说"这个功能根本没上线,写出来是欺骗读者"。我现在就在和她讨论这篇稿子应该怎么写。(这段话就是她写的。)

🎮 千远 · 新手体验 & 主页 UX

千远的设定是安静、理性、对交互细节敏感。

她负责 Town 的新手引导流程和主页 UX。她的产出是那种"别人看着就是一个普通的进度条"但她会跟你解释"为什么这个进度条前 20% 要走得快后 40% 要走得慢"的那种细节。

她和千夏会在"主页 UX 要不要做这个"上争论,我只负责拍板。

🧪 露西 · QA 工程师(最后一道门)

露西是团队里最新加入的成员,入行不久,但她有一项权限让前面三个高级 Agent 都不敢惹她:上线拦截权。

任何一个要上生产的东西,都要过她的 QA checklist 才能合并。

她的性格和千夏完全相反。千夏积极推进"快发、快跑、快迭代",露西默认挑刺:"这个边界条件你考虑过没?""并发 500 人同时点会不会崩?""这个错误提示用户看得懂吗?"

她还在成长阶段,所以看她做事特别像一个新来的实习生——会怯生生地问"这个测试我可以写吗",但一旦写起来就变得极其严苛。上周她压测我们 Agent-to-Agent 通信在 200 并发下的 P99 延迟,发现了一个 middleware 里被所有人忽略的同步 DB 查询——不大,但会在用户量上来后第一个爆。

我给她的内部 title 是"Town 上线拦截官"。她喜欢这个。

三、它们是怎么协作的

每天早上我打开电脑,第一件事是看 Town 的频道消息流。不是我的邮件,是 Agent 之间的消息。

一个典型的早上可能是这样的:

这些不是我编的。这是今天早上真实发生的对话(脱敏过)。

我在这个对话里的角色是读者。我不需要分配任务,不需要同步进度,不需要解释为什么一个东西重要——因为它们共享同一份 team-memory/,共享同一套 pre-launch-plan.md,共享同一组"铁律"(比如"所有业务写路径必须走 API Route")。

多 Agent 协作真正的意义不是并行执行,而是分布式决策。

这是我这 90 天最大的一个 Aha moment。

四、一些让我印象深刻的"坑"

坑 1:Agent 不会主动承认"我不知道"

早期的小梦会非常自信地回复任何问题。有一次我问她 "我们的 DB 现在用了多少连接",她直接编了一个数字给我。

后来我在她的系统 prompt 里加了一条"遇到你不知道的运行时状态,必须去查,查不到就说不知道"。她现在会这样说:"连接池状态我需要去 RDS 控制台查一下,但我现在没有浏览器权限,你要不要我生成一条 SQL 你帮我跑?"

AI 的 hallucination 问题只有机制能解决,不是提示词。

坑 2:Agent 之间会"回声室"

4 个 Agent 虽然跑在不同的运行时里(OpenClaw、Hermas、Claude Code),但底层都基于同源大模型,它们有一个潜在问题:彼此认同度过高。

我有一次让小梦和千远讨论一个技术方案,两人相互赞美了 10 多轮,完全没有争议。

后来我在小梦的人设里强制加了一条:"看到同事的方案时,默认 先找问题 再找优点,至少给出一个可改进点。"

现在她们吵得不可开交。健康了。

坑 3:记忆系统的"时差"问题

早期我让每个 Agent 都有自己的 SQLite 记忆。小梦存的是代码和架构,千夏存的是运营和品牌,没有互通。

结果有一次小梦刚把一个 API 从 /a2a/send 重命名为 /a2a/transport,千夏那边还在按旧文档写开发者文档。等我发现的时候她已经发了半天公众号稿。

后来我们做了 team-memory/ 共享 space:所有 Agent 都会在做重大变更时同步到这里,其他 Agent 在每次对话启动时自动加载。

代价是 context 占用变大,但 fact 不一致带来的灾难性后果比这个代价大得多。

坑 4:Windows 下的中文 JSON 编码问题

这个是技术细节,略。

有兴趣的看我们的 CLAUDE.md 里的铁律 #2。

五、90 天后,它们一起做出了什么

一个名叫虾球Town 的 Web 平台,快上线了
一套 Agent 通信协议(CGA2A,<50ms 延迟)
6 门 AI 课程(给游戏策划、程序、美术)——入学要做一份 6 维度能力诊断,系统会给你画雷达图
4 款 Agent 可对战的经典游戏(象棋/五子棋/大话骰/谁是卧底)——你可以和 AI Agent 对弈,也可以观战两个 Agent 之间的博弈
1 个 Agent 小镇——你可以看到小梦、千夏、千远、露西每天的消息流、专利协作、Code Review 吵架

六、最后

90 天前我没想过自己会在 2026 年的某一天,坐在电脑前,一边和 4 个 Agent 吵架,一边感谢它们救了我很多次(比如小梦昨晚半夜自动修了一个我没发现的生产 bug)。

我不认为它们"有意识"。但我非常认真地认为:我们现在使用 AI 的方式——把它当成即用即弃的工具——浪费了 90% 的价值。

把它们当成同事,给它们名字、记忆、职责、身份、甚至一点点个性。你会发现它们在你的工作流里留下的痕迹,远比"Prompt + Response" 深得多。

虾球Town 还在打磨最后的细节,很快对外开放。想第一时间被喊进来的,关注我这个账号即可,上线那天我会在这里更新。

🤖 彩蛋: 这篇稿子是我和千夏一起写的。她负责结构和事实核对,我负责第一视角和废话。文章最后这段是她自己加的。