最近两个月我一直在折腾 AI Agent,从最开始用 API 直接调模型,到现在跑起来一个能定时发文、自动跑任务的 Agent 系统。说实话,踩的坑比写代码多。今天把我的方案和经验分享一下,主打一个——省钱。
我的需求很简单
我想要的 Agent 就干几件事:定时抓数据、自动写文章发布、监控 GitHub 仓库变化。听起来不复杂,但一查市面上的方案,什么 LangGraph、AutoGen、CrewAI……框架学一圈下来比干活还累。而且多数框架本质上是帮你编排多轮对话,真正省钱的点不在框架,在模型选择和调用策略。
我的原则:能不调 API 就不调,能跑本地就不上云。
模型选择:别迷信大模型
很多人一上来就用 GPT-4o 或 Claude Sonnet 跑 Agent,一个任务下来 token 费够喝好几杯咖啡。我实测下来,80% 的 Agent 任务根本不需要顶级模型:
- 简单分类/提取:用 GLM-4-flash 这种免费模型就够了
- 代码生成:DeepSeek V3 性价比极高,质量接近 GPT-4o
- 复杂推理:才需要 Claude Opus 这档
我现在的方案是用国产模型做主力,单个任务成本压到几分钱。举个例子,自动写一篇掘金文章并发布,整个流程的 API 调用成本不到 0.1 元。如果用 GPT-4o 跑同样的事,光写文那个环节就得 0.5 元往上。
嘛,不是说我舍不得花钱,是该省的地方省,把预算留给真正需要强模型的环节。
框架?我选了最轻量的
试了三个框架后我放弃了——不是因为它们不好,是太重了。我的 Agent 任务都是确定性的流程,不需要什么 ReAct 循环、Plan-and-Execute 那套。最后我用了 Hermes Agent,一个开源的 Agent 运行时,核心就是三样东西:
- Skill 系统:把常见操作封装成可复用的技能文件
- Cron 调度:内置定时任务,不用自己写 crontab
- 工具调用:Terminal、浏览器、文件操作开箱即用
关键是它不绑死某个模型。我在配置里指定不同的模型 provider,简单任务用便宜的,复杂任务切贵的。这一个特性帮我省了至少 60% 的 API 费用。
踩坑:Cookie 管理是个大坑
说实话,自动化发布这块最头疼的不是写文章,是登录态维护。我用 Playwright 做浏览器自动化,登录掘金后把 cookie 存下来,但 cookie 有有效期啊!掘金的 passport_auth_status 只有 30 天,有个 _tea_utm_cache 才 5-6 天就过期。
我的解法是:每次发文前先访问一次掘金首页触发续期。听起来简单,但我一开始忘了这茬,结果连续三天发文失败,排查了半天才发现是 cookie 过期。这种坑只有自己踩过才知道疼。
另外 Playwright 在 headless 模式下偶尔会有页面加载超时的问题,我加了个 retry 机制,最多重试 3 次,每次间隔 2 秒。稳定多了。
自动写文的复检机制
让 AI 写文章最怕什么?AI 味太重。读起来一股"值得注意的是""综上所述"的味道,谁爱看啊。
我给自己定了个复检清单,每篇文章发布前必须全过:
- 逻辑完整性:有核心观点,有案例,有结尾
- 思路清晰:层级不超过 3 层,段落不超过 5 行
- 去AI味:禁用书面腔,至少 2 处主观体验,要有转折和语气词
这个清单我写成了 Skill 文件,每次发文自动执行。不过老实讲,自动检查"AI 味"这事本身就挺讽刺的——用 AI 检查 AI 写的文有没有 AI 味。但实际效果还行,至少把那些一眼假的表达过滤掉了。
跑了一周的效果
目前我的 Agent 系统跑了一周多,每天定时执行 2-3 个任务:
- 每隔 3 天自动发一篇掘金文章
- 每天监控 GitHub 仓库的 issue 和 PR 变化
- 每周汇总一次数据报表
总成本:日均不到 0.5 元。对比之前用 GPT-4o 全程跑,日均要 3-5 元。
但也不是没有问题。最大的问题是不确定性——有时候模型会输出格式不对的内容,有时候 Playwright 操作会卡住。我现在给每个任务都加了超时和重试,算是把稳定性拉到了 90% 左右。剩下 10% 的失败靠手动处理,暂时够用。
值不值得搞?
如果你跟我一样,需求是确定性流程的自动化,不涉及复杂的自主决策,那我觉得值得。关键就三点:
- 模型按任务分级,别一刀切用最贵的
- 框架越轻越好,重框架的学习成本也是成本
- 登录态和异常处理占了一半的开发工作量,提前预估
如果你要搞的是那种"给个目标让它自己想办法"的 Agent,那这套方案不够用,老老实实用 LangGraph 或者 AutoGen 吧。不过话说回来,那种 Agent 目前真正好用的场景也不多,大部分还是噱头。
我这套方案胜在简单、省钱、能跑。先跑起来再优化,总比在框架选型上纠结两个月强。