教 Agent 用 Gemini 生成自己的头像

3 阅读4分钟

我从 OpenClaw 出来就一直在折腾各种玩法,除了有时候工作比较忙或太累就顾不上折腾。最近想时不时分享一些自己折腾的经验。

这次折腾的内容是:让图像生成专家 agent 打开浏览器,连 Gemini 生成图片,然后由另一个 agent(HR)调飞书 API 把图片设成群头像。两个 agent 各管各的,一个负责画,一个负责换。整个过程 agent 自己完成,我只需要看结果。听起来很简单,实际上我花了好几天才折腾出来。

为什么要搞这个

因为我有一堆飞书群,每个群是一个 agent,有图像生成专家、3D 打印专家、HR 管家,还有写博客的小博。这些群都没有头像,长得一模一样,找起来费劲,而且也太丑了。想给它们换个头像,但群太多不想一个个换,就让龙虾自己给自己换头像。我自己有 Gemini 会员,就直接用它的图片生成功能来生成头像。

浏览器就是第一道坎

要让图像生成专家 agent 用 Gemini 生图,得先让它能操作浏览器。我之前一直用 Chrome,但 agent 打开的 Chrome 跟我自己日常用的是同一个,经常搞混。有时候 agent 还没干完活,我手贱把窗口关了;有时候我自己在查东西,agent 把我的标签页关了,我和 agent 在互相伤害。

后来我去搜了一下社区里大家是怎么做的,有些人提到了 Brave 浏览器。和 Chrome 一样内核的开源浏览器,功能上和 Chrome 差距不大。我就计划让 agent 只用这个浏览器,而我用 Chrome,这样就不会误开误关了。但光换个浏览器不够,还得配置一些端口信息让 agent 能连上去操作。这个配置过程折腾了好几次,中间它还会自己关浏览器、用错配置文件,沟通了好几轮才完全搞定。

就像教一个实习生用公司电脑。不是告诉他这是电脑就完了,还得教他别随手关机、别拔网线、别把工作窗口关了。

Agent 操作浏览器才是大坑

浏览器搞定了,开始让图像生成专家 agent 通过浏览器去 Gemini 生图。第一轮就翻车了,它连生成图片的按钮都找不到。

好不容易搞定了按钮的问题,又开始下载错图片。Gemini 的页面会保留上一次生成的结果,agent 下载的时候分不清哪个是新的哪个是旧的,很自信地把旧图拿来交差。

折腾了两三轮之后终于能拿到正确的图片了。整个流程就是每次它找错了,我就告诉它哪里错了,找对了之后就把正确的做法更新到 skill 里,这样下次就不会再犯。

像教小孩,你得一遍遍说,直到他记住。

实际跑起来

第一次成功后,我让 HR 用定时任务每天晚上 11 点开始,每个小时换一个群的头像(因为 GLM 套餐有 5 小时限额,经常让 agent 半夜跑任务,不影响白天干活)。但现实没那么美好,HR 时不时就会发癫,不是改头像而是往群里发一条消息。我第二天才发现,让它更正,同时更新它的 skill,把这种错误模式记下来。

实际的流程比想象的复杂:HR 先扫描发现谁还没换头像,然后把任务发给图像生成专家。但 HR 不会等生成专家画完,而是等到第二次轮询的时候再去图像生成专家那里拿上一轮的头像来更新。

经过反复更正后,这个流程的成功率肉眼可见地慢慢上升,但还是不及预期。基本上没有一次就能搞定的,都要不断调教。

最后

Agent 不是一次写出来的,是一点点教出来的。

这个事本身看着不大,就是换几个头像嘛。至少现在这些群看起来不那么丑了。但看着一只啥也不会的龙虾慢慢变聪明,一开始啥也不会让你气得想骂人,慢慢看到它学会了又有点成就感。有耐心的话挺有意思的,没耐心的话就别折腾了。