哈喽,大家好
我是阿星!
你大概率遇到过这种情况。看到一篇不错的公众号文章,想让 AI 帮你抓下来,最后也不完整。
所以我这次试了试阿一的skills,它拿到了标题、公众号名称、作者、发布时间、正文纯文本和 5 张图片链接,最后自动生成了一个 .md 文件。👇🏻
1、怎么使用?
我先从阿一 AI 站文章里找到对应资源页,直接告诉codex安装就够了。
如果你已经把 Skill 包下载并解压,可以这样对智能体说:
请帮我使用这篇文章里提到的「微信公众号文章抓取 Skill」:
https://www.ayi001.xyz/articles/190
目标:抓取这篇公众号文章:
https://mp.weixin.qq.com/s/xxxxx
请按下面步骤执行:
1. 先读取上面阿一 AI 站文章,找到里面提到的 Skill 资源页面或下载地址。
2. 下载并解压「微信公众号文章抓取 Skill」。
3. 读取解压目录里的 SKILL.md 和 references/usage-guide.md。
4. 检查本机是否具备 Node.js 环境,并安装或确认 Puppeteer 依赖可用。
5. 如果 Puppeteer 报错找不到 Chrome,请优先检查本机是否安装 Google Chrome;如果已安装,请使用 PUPPETEER_EXECUTABLE_PATH 指向本机 Chrome 后重新运行。
6. 调用 Skill 里的 scripts/save-markdown.js 或等价脚本抓
下载包大约 9.5MB,
解压后能看到这些核心文件:
- SKILL.md:告诉智能体什么时候调用这个能力。
- README.md:项目说明。
- package.json:Node.js 依赖配置。
- scripts/scrape-wechat.js:核心抓取脚本,返回结构化 JSON。
...
它的 SKILL.md 写得比较直接:遇到 mp.weixin.qq.com 文章抓取任务时,调用 scripts/scrape-wechat.js,等待 #js_content 出现,再提取标题、作者、发布时间、公众号名称、正文文本、正文 HTML、图片链接和正文外链。
第一次运行时遇到了 Puppeteer 找不到 Chrome 的报错。这是 Puppeteer 类工具的常见初始化问题,不是抓取逻辑失败。解决方法有两种:一种是按提示安装 Puppeteer 需要的 Chrome;另一种是像我这样,直接让它使用本机已经安装好的 Google Chrome
这次跑通了,耗时大约 7 秒,终端返回:已保存: 20260601_福布斯2024中国内地富豪榜:钟睒睒连续4年成首富.md
生成的 Markdown 里包含文章标题、公众号、作者、发布时间、原文链接、正文,以及图片列表。这说明它至少在这篇文章上是能工作的,而且输出结构对后续整理很友好。
但是图片一开始是会崩的,需要你指定一个图片下载后上传的位置,我是把它上传到了飞书CLI里
如果你的需求只是“把文章保存进知识库”,save-markdown.js 就够用。
如果你想把它接进自己的工作流,比如先抓 JSON,再做摘要、打标签、生成选题库,就可以直接用 scrape-wechat.js,因为它返回的是结构化 JSON。
2、到底是什么东东
这个工具更接近一个 Skill 包。
简单说,Skill 不是一个独立 App,你可以把它理解成给智能体准备的一套“任务说明 + 脚本工具 + 使用文档”。当你告诉智能体“调用这个 Skill 抓取公众号文章”时,智能体会按 SKILL.md 里的说明去运行脚本。
项目原理如下:
这个包里的核心脚本是 Node.js 写的,依赖 Puppeteer。Puppeteer 是一个浏览器自动化库,官方文档的说法是,它可以通过 Chrome DevTools Protocol 和 WebDriver BiDi 自动化 Chrome 与 Firefox。
换句话说,它不是假装自己在抓网页源码,而是真的启动一个浏览器,让页面先像正常用户访问一样渲染出来,再去页面里找公众号正文容器。
3、适合谁用
我觉得它最适合三类人。
第一类是内容创作者。你经常需要保存同行文章、整理选题、分析标题和结构。
第二类是知识库重度用户。你看到好文章,不想只收藏链接,因为链接可能失效,也不方便全文搜索。抓成 Markdown 之后,可以放进 Obsidian、Notion、飞书文档或者本地资料库。
第三类是做运营、产品、增长研究的人。公众号里有很多行业观察、案例拆解、活动复盘。手动复制太慢,直接抓取后再做分类分析,会更接近一个可复用的资料流。
如果你经常收藏公众号文章,这个工具值得试一下。
但我不建议把它用成批量搬运工具。公众号文章有版权,抓取也要尊重原作者和平台规则。更稳妥的使用方式,是保存自己有权限阅读的文章,用于个人备份、学习和分析,不要高频批量请求,也不要未经授权二次发布。
ok,我是阿星,
更多AI应用,我们下期再见!