keyword:AI 写作 Agent、自动化 工作流 、Python 爬虫、公众号矩阵、 飞书文档 自动化、降本增效
昨天,我发了一篇文章《一个 Markdown 文件,正在杀死所有插件帝国!》,到目前为止知乎上已经有8000+的阅读,搞不好会过万......
然而,这是我昨天刚开发完的AI新闻智能体系统自动跑出来的,
当时写完最后一波代码,运行测试,没出什么bug,只靠点按钮就得到了公众号后台排版好的文章,稍微有点高兴(做开发的应该能理解),所以就想要不直接发表留个纪念吧
结果没想到,数据比我自己辛辛苦苦写的文章还好,真是作孽啊😂
下面详细介绍一下我的系统,请各位大佬批评指正
AI新闻写作智能体架构
先上个很久之前画的整体图:
——为啥是这样的流程?
因为我虽然是做开发的,但以前也在头部号做过编辑,俺们就是这么工作的,我这次借用代码和AI的力量将这套流程自动化了
这样可以给我自己写文章省下大把时间,用来精修文章,研究内容并注入自己的观点和情感
下面介绍实现细节:
首先是各个新闻源的爬虫,需要按照具体的情况适配,这是脏活累活,
有API的分析API,没有的找轮子,再没有就得自己造轮子,比如推特这种API收费还很麻烦的,我最后用webdriver的方式解决的
然后是新闻的筛选,俗称选题。这里采用了两套方案,一是在代码里做了一套有点恶心的算法来做初筛,二是利用LLM进行筛选和打分,这里就是结合自己的领域知识设定各种标准
下一步是内容生成,要想影响一只LLM的输出,基本上只有两个方法:
改上下文和改参数。改上下文对应prompt和RAG(向量数据库),改参数对应训练(微调)
这一步大部分也是脏活累活,需要收集清洗大量目标文章来提炼文风、建立知识库,我甚至还试过微调模型(当然这个主要是为了AI检测)
然后说到AI检测,我想大部分文字工作者应该都有所了解,现在最6的检测器应该就是朱雀,因为公众号是腾讯的,朱雀也是腾讯的,所以我很长一段时间都在纠结这个问题
从原理上来讲,朱雀无非就是拟合了各种大模型输出文本(有可能是对抗训练?我没去看过论文)的概率分布,那么对抗的方案就是增加文本的‘困惑度’(Perplexity)和‘爆发度’(Burstiness) ,我试过用代码搞但是感觉不可用,所以后来去清洗数据做了模型微调以防万一
过程中我还见过有人通过前端代码研究朱雀的 API 通信协议,网友还是人才多啊
不过我最后的结论是先不管朱雀了,只要保证文章质量过硬,对得起自己,对得起读者就行,以后万一限流了以后再说
剩下的就是后面的工作流自动化,我的习惯是在飞书写作(吐槽一下,好几年前是被迫用飞书的,现在居然习惯了😅,尽管到今天飞书上的有些操作设计依然离人类很远)
这里的工作流是LLM返回的文章上传飞书文档,人工审核精修,然后再下载覆盖原始文章,上传公众号后台
如果在web预览界面觉得大模型给的初稿已经足够好了(或者像我一样一时冲动),也可以不用过飞书,直接放到公众号后台发表
最后一个框是在文章发表之后监控各种数据,反馈给算法,用来优化之前的各个环节,以期产生更好的输出结果——通俗来讲就是学习怎样写流量更好
当然,最后这步工程量很大且需要长时间磨合验证,现阶段还没做完
这个项目(包括另外一个做了一半的项目)是我前段时间思考了很久,包括跟各大模型讨论了很久,最终筛选出来,并决定动手尝试的
目前这套 AI News Agent 的核心 Pipeline 已经跑通,并实现了日更自动化。
关于具体的 工程细节 以及 路上踩的坑,以后有时间再分享
感兴趣的同学可以关注我的公众号【云中 AI】,后续我会更新更多有趣AI内容和技术干货