我把 AI Agent 从聊天框搬到本地工程流:一个可复用的落地框架

35 阅读4分钟

过去一年,很多人对 AI Agent 的理解还停留在“能聊天、能调用工具、能自动写点代码”。但真正把它放进工程现场之后,我越来越觉得:Agent 的关键不在于它会不会说话,而在于它能不能稳定地接住一个真实任务,从上下文、工具、文件、浏览器、测试、记录一路闭环。

这篇文章总结一个我最近反复使用的本地优先 Agent 工作框架。它不依赖某个特定模型,也不神化自动化,核心目标只有一个:让 AI 从“临时问答助手”变成“可以交付结果的工程协作者”。

1. 为什么要本地优先

云端聊天框适合问概念、写片段、做推演,但它天然缺少几个工程现场必需品:

  • 真实文件系统:它不知道项目里到底有哪些文件、哪些文件刚被改过。
  • 真实运行环境:它不能直接跑测试、看日志、访问本地服务。
  • 真实浏览器状态:很多发布、调试、后台配置都必须进网页里看。
  • 长期项目记忆:一次会话里的答案,过几天就很难沉淀成项目资产。

所以我更偏向“本地优先”的 Agent:代码、文档、脚本、浏览器 profile、测试结果、项目知识库都在本机。AI 负责推理和编排,但证据来自真实环境。

2. 一个可复用的四层结构

我现在会把 Agent 工作流拆成四层。

第一层是项目契约。也就是 AGENTS.md、README、目录约定、端口约定、命名约定、语言边界。它解决“这个项目到底希望 AI 怎么工作”的问题。

第二层是确定性工具。比如 CLI、REST、MCP、脚本、测试命令、浏览器探针。它们不内置大模型,只暴露确定能力:读取、检索、渲染、发布、记录、验证。

第三层是 AI 编排。AI 不直接“凭感觉做完”,而是先读契约,再调用工具,再根据工具结果决定下一步。

第四层是回流系统。每次发布、测试、失败、修复,都要沉淀成日志、数据或知识条目。否则 Agent 做得再多,也只是一次性体力活。

3. 一个真实例子:发布平台研究

假设目标是研究一个内容平台能不能赚钱。普通做法可能是看几篇经验帖,然后写一篇“变现指南”。

但工程化做法会更像这样:

  1. 建一个专门项目,记录平台定位、收益入口、合规红线。
  2. 用浏览器打开真实平台,让用户自己登录,避免脚本接触密码。
  3. 探测创作者中心、编辑器、活动入口、小册或课程入口。
  4. 写一篇首发文章,用它作为真实流量样本。
  5. 记录 24 小时、72 小时、7 天数据。
  6. 根据数据决定继续写系列、申请小册、转工具服务,还是停止投入。

这个过程看起来慢,但它有一个巨大好处:每一步都有证据。AI 不是在“编一个赚钱故事”,而是在帮你跑一个最小商业实验。

4. 我会避免的三个坑

第一个坑是把 Agent 当成万能员工。现实是,越关键的动作越需要人确认,比如登录、付款、公开发布、删除数据。Agent 应该尽量做准备工作、验证工作和重复工作,而不是替你承担所有风险。

第二个坑是只写自动化,不写知识库。脚本今天能跑,不代表下个月还能跑。平台 DOM 会变、接口会变、规则会变。如果没有文档和复盘,自动化很快就会变成没人敢碰的黑盒。

第三个坑是让 AI 直接调用模型生成一切。我的经验是,核心服务最好保持确定性:只存、查、渲染、校验、发布。需要写作和判断时,由外部 AI 编排。这样边界更清楚,也更容易测试。

5. 最小落地清单

如果你想把自己的 Agent 工作流从“聊天框”推进到“工程流”,可以从这份清单开始:

  • 每个项目写一份 AGENTS.md,明确 AI 的工作方式。
  • 所有长期任务都保存在项目目录,而不是只放在聊天记录里。
  • 能脚本化的步骤脚本化,但脚本默认不要越过高风险确认。
  • 每次让 AI 改代码,都要求它跑最小相关测试。
  • 每次做平台发布,都记录 URL、发布时间、数据回流节点。
  • 每次踩坑,都把原因写进项目知识库。

6. 结语

AI Agent 真正有价值的地方,不是替人“显得很忙”,而是把人的判断、工具的确定性、项目的记忆连接起来。

当它能读项目、跑命令、开浏览器、写文档、做验证、留记录,它就不再只是聊天框里的聪明回答,而是一个可以持续复利的工程系统。

后面我会继续写这个方向:浏览器自动化如何做得稳一点、本地知识库如何组织、以及个人开发者怎么把这些能力变成可交付的工具和服务。