Python+LLM 实战：手撸一个AI新闻 Agent 自动发文章（附架构复盘与防检测思路）keyword：AI 写作

keyword：AI 写作 Agent、自动化 工作流 、Python 爬虫、公众号矩阵、 飞书文档 自动化、降本增效

昨天，我发了一篇文章《一个 Markdown 文件，正在杀死所有插件帝国!》，到目前为止知乎上已经有8000+的阅读，搞不好会过万......

然而，这是我昨天刚开发完的AI新闻智能体系统自动跑出来的，

当时写完最后一波代码，运行测试，没出什么bug，只靠点按钮就得到了公众号后台排版好的文章，稍微有点高兴（做开发的应该能理解），所以就想要不直接发表留个纪念吧

结果没想到，数据比我自己辛辛苦苦写的文章还好，真是作孽啊😂

下面详细介绍一下我的系统，请各位大佬批评指正

先上个很久之前画的整体图：

——为啥是这样的流程？

因为我虽然是做开发的，但以前也在头部号做过编辑，俺们就是这么工作的，我这次借用代码和AI的力量将这套流程自动化了

这样可以给我自己写文章省下大把时间，用来精修文章，研究内容并注入自己的观点和情感

下面介绍实现细节：

首先是各个新闻源的爬虫，需要按照具体的情况适配，这是脏活累活，

有API的分析API，没有的找轮子，再没有就得自己造轮子，比如推特这种API收费还很麻烦的，我最后用webdriver的方式解决的

然后是新闻的筛选，俗称选题。这里采用了两套方案，一是在代码里做了一套有点恶心的算法来做初筛，二是利用LLM进行筛选和打分，这里就是结合自己的领域知识设定各种标准

下一步是内容生成，要想影响一只LLM的输出，基本上只有两个方法：

改上下文和改参数。改上下文对应prompt和RAG（向量数据库），改参数对应训练（微调）

这一步大部分也是脏活累活，需要收集清洗大量目标文章来提炼文风、建立知识库，我甚至还试过微调模型（当然这个主要是为了AI检测）

然后说到AI检测，我想大部分文字工作者应该都有所了解，现在最6的检测器应该就是朱雀，因为公众号是腾讯的，朱雀也是腾讯的，所以我很长一段时间都在纠结这个问题

从原理上来讲，朱雀无非就是拟合了各种大模型输出文本（有可能是对抗训练？我没去看过论文）的概率分布，那么对抗的方案就是增加文本的‘困惑度’（Perplexity）和‘爆发度’（Burstiness） ，我试过用代码搞但是感觉不可用，所以后来去清洗数据做了模型微调以防万一

过程中我还见过有人通过前端代码研究朱雀的 API 通信协议，网友还是人才多啊

不过我最后的结论是先不管朱雀了，只要保证文章质量过硬，对得起自己，对得起读者就行，以后万一限流了以后再说

剩下的就是后面的工作流自动化，我的习惯是在飞书写作（吐槽一下，好几年前是被迫用飞书的，现在居然习惯了😅，尽管到今天飞书上的有些操作设计依然离人类很远）

这里的工作流是LLM返回的文章上传飞书文档，人工审核精修，然后再下载覆盖原始文章，上传公众号后台

如果在web预览界面觉得大模型给的初稿已经足够好了（或者像我一样一时冲动），也可以不用过飞书，直接放到公众号后台发表

最后一个框是在文章发表之后监控各种数据，反馈给算法，用来优化之前的各个环节，以期产生更好的输出结果——通俗来讲就是学习怎样写流量更好

当然，最后这步工程量很大且需要长时间磨合验证，现阶段还没做完

这个项目（包括另外一个做了一半的项目）是我前段时间思考了很久，包括跟各大模型讨论了很久，最终筛选出来，并决定动手尝试的

目前这套 AI News Agent 的核心 Pipeline 已经跑通，并实现了日更自动化。

关于具体的 工程细节 以及 路上踩的坑，以后有时间再分享

感兴趣的同学可以关注我的公众号【云中 AI】，后续我会更新更多有趣AI内容和技术干货