大家好,我是冷逸。
朋友们,给大家看看我折腾了好几天整的公众号写作神器**「Auto-Wechat writing」**。
它能做什么?
只需简单输入内容主题和创作要求(比如字数、关键内容点),就能调用写作styles一键直出公众号正文、标题、摘要和封面图,支持自由接入各种模型。
出来的文字,人味很足,朱雀检测“人工创作特征显著”,全部文字我放今天的次条了。
项目已开源,欢迎大家star。
目前还只是1.0版本,我会不断迭代这个项目,后面给它加入写作风格训练、写作类型选择(不限于公众号)、自动同步到公众号后台以及自动生成文章插图等功能,希望大家多多三连支持,感谢了。
1、开发思路拆解
为什么要做这个东西?一开始主要还是自己需要。
因为我自己的写作流程就是:
- 先写正文,完成框架、观点和全文,期间配图也会同步制作。
- 确定正文后,根据全文来起标题、摘要(AI会加入进来)。
- 同步,根据标题和摘要制作封面图。
- 最后,排版、发布。
最近,我就在琢磨,看能不能搞一个全自动的写作工具。刚好智谱这几天上线了新模型GLM-5.1,看大家的实测,特别擅长长程任务,于是我把它接到Claude Code里开整,也借此测一下这个模型。
我的需求其实蛮多的,用口语描述了一大堆功能。
给我做一个“沃垠AI写作神器”的全功能网站,可在本地运行。
功能要求:
1、有三个核心功能:正文生成、标题摘要生成(先生成正文后,再根据正文来生成标题和摘要)、封面生成。正文、标题摘要接同一个模型,图片接另外一个模型。
2、主界面有一个输入会话框,给到示例模板“帮我写一篇公众号文章,主题是xx,字数xx,内容要点有:1.xx,2.xx……”,用户输入内容主题和写作要求后,开始调用大模型进行写作。
3、输入会话框设计有“联网”功能,支持用户手动打开和关闭联网功能。
4、输入会话框还设计有风格1、风格2等可选的写作风格模板。目前只有一个“风格1:科技媒体评论”,风格控制Prompt见本地文件“风格1:科技媒体评论.txt”。
5、写作和生图均支持用户自行调用大模型。调用接口设计成可视化窗口,用户只需要输入模型url、模型key和模型名字,就可以使用。
5、先写正文,写完正文后,再批量出一批标题和摘要,供用户选择。
6、最后,再根据本文的核心内容提炼2-3个关键内容点,并生成封面图片的文生图prompt,统一尺寸比例2.35:1,用户选定某个prompt后,调用生图模型一键生成封面图片。
7、正文和标题摘要,都设计有复制按钮,支持用户一键复制文本。封面图片,设计有下载按钮,支持用户下载到本地。
先给我设计网站开发的产品需求文档。待我确认产品需求文档后,再进行具体的开发。整体要求架构清晰、功能完整,网站真实可用,代码安全。
如果你直接让大模型one shot去做一个成品,这大概率是做不出来的……所以,我们先让它写一份PRD(产品需求文档)。
我拿到PRD后,微调了一下,让它根据定稿版PRD进行开发。
这是一个前后端都有的轻量级项目,先简单过一下架构。
主要就三层: 后端用Express服务入口,负责启动服务器、加载中间件和挂载路由;前端用原生HTML+JS,加载速度快,开发成本低;styles风格系统,是一个外部挂载,支持用户自己编辑、创建“风格.txt”来微调AI的写作风格。
核心的内容生成环节,它做了一个路由层 (routes/)。article.js负责处理正文生成,可以流式输出;titles.js负责批量生成标题和摘要;cover.js负责封面生成,提供Prompt生成+图片下载的功能。
API配置,则是存在浏览器localStorage中,做到了安全合规。
对于一个轻量级网站来说,这个架构是比较成熟且结构清晰的,没有过渡设计。我想要实现的功能,它基本都规划进来了。
先看第一版。
功能大体上做出来了,但是前端太单一,我给了它一些资料和前端设计要求,让它进行优化。
优化后的前端,果然耐看了很多。
我们填入API,冲。
不出意外的话,报错果然来了……这其实不能怪它,怪我自己,API格式不对。前面我填的是anthropic格式的API,而非OpenAI格式的API。
在调整API接口后,它真的能生成文章了。
平时,用惯了别人几十上百个工程师穷究集体智慧做出来的工程化产品,总觉得不以为然,现在看到自己手搓的毛坯产品也能正常生成,这种感觉真的挺奇妙的。
就像最近张雪的采访视频里,有一句话让我真的想了好几天——程前问他初中学历怎么就敢去干发动机?他不做任何思考就说了一句“不会就学啊”。
是啊,不会就学,不服就干,多么简单的道理。
对于我开发这个项目也是,不会你就问AI啊,总能有结果的。
于是,后续测试过程中,陆续出现生成标题报错、生成图片报错……没关系,我们直接跟GLM-5.1聊,让它修复。
后面,我又迭代了大半天。主要是API接口调了很久,每家云厂商甚至每个模型的格式、接口和要求都有些细微的区别。
最终看到封面图也搞定的那一刻,我觉得这个项目成了。
再给大家看下整个的演示流程。
目前,完整项目已经开源放在了Github上,欢迎大家使用和Star。上传Github我也比较懒,直接让GLM-5.1帮我搞定的。
使用方式,也很简单。先把这个项目clone到本地,然后本地npm start,然后接入API就可以用了。
写作这块,文本模型推荐GPT、Qwen、DeepSeek和GLM,图片模型推荐banana或seedream,API记得要选OpenAI标准协议的url。
我不知道,这个项目对于大家来说有没有帮助,但对于我来说是真的受用。
后面,我还会继续迭代风格提示词,以及给它增加导入到公众号后台、配图生成、分发插件等功能,那对于我来说就真的完全自动化了。
写在最后
整个体验下来,GLM-5.1在长程任务开发这块还是挺强的。
我主要开发时间是在昨天。给大家看下我的真实token消耗量,这个项目一共跑了1300万tokens。
从首次输入需求到最后上传Github,与CC对话了大概30多次,调试了近10个版本,最后烧掉1300万tokens,交付了一个我觉得是非常solid的东西。
期间,还调用了检索、代码、测试和API等工具进行开发,也都能稳定衔接。1300万tokens的任务开发,始终能够能够跟目标保持一致,并未丢失,也没有跑偏。
看来,GLM-5.1在长程任务这块还是有点东西的
长程任务,它不同于one shot的showcase。
one shot更多是看前端,看审美,跑出来的demo能看但不能用。而长程任务不关心你酷不酷,而是要看最终出来的东西能不能用,能不能进入生产环境。
从我的实测来看,GLM-5.1的表现是合格的。
要是能开源的话,那就更好了。