codex抓取公众号skill：正文、图片、链接，能直接存成 Markdown哈喽，大家好我是阿星！你大概率遇到过这

哈喽，大家好

我是阿星！

你大概率遇到过这种情况。看到一篇不错的公众号文章，想让 AI 帮你抓下来，最后也不完整。

所以我这次试了试阿一的skills，它拿到了标题、公众号名称、作者、发布时间、正文纯文本和 5 张图片链接，最后自动生成了一个 .md 文件。👇🏻

1、怎么使用？

我先从阿一 AI 站文章里找到对应资源页，直接告诉codex安装就够了。

如果你已经把 Skill 包下载并解压，可以这样对智能体说：

请帮我使用这篇文章里提到的「微信公众号文章抓取 Skill」：
https://www.ayi001.xyz/articles/190

目标：抓取这篇公众号文章：
https://mp.weixin.qq.com/s/xxxxx

请按下面步骤执行：

1. 先读取上面阿一 AI 站文章，找到里面提到的 Skill 资源页面或下载地址。
2. 下载并解压「微信公众号文章抓取 Skill」。
3. 读取解压目录里的 SKILL.md 和 references/usage-guide.md。
4. 检查本机是否具备 Node.js 环境，并安装或确认 Puppeteer 依赖可用。
5. 如果 Puppeteer 报错找不到 Chrome，请优先检查本机是否安装 Google Chrome；如果已安装，请使用 PUPPETEER_EXECUTABLE_PATH 指向本机 Chrome 后重新运行。
6. 调用 Skill 里的 scripts/save-markdown.js 或等价脚本抓

下载包大约 9.5MB，

解压后能看到这些核心文件：

- SKILL.md：告诉智能体什么时候调用这个能力。
- README.md：项目说明。
- package.json：Node.js 依赖配置。
- scripts/scrape-wechat.js：核心抓取脚本，返回结构化 JSON。
...

它的 SKILL.md 写得比较直接：遇到 mp.weixin.qq.com 文章抓取任务时，调用 scripts/scrape-wechat.js，等待 #js_content 出现，再提取标题、作者、发布时间、公众号名称、正文文本、正文 HTML、图片链接和正文外链。

第一次运行时遇到了 Puppeteer 找不到 Chrome 的报错。这是 Puppeteer 类工具的常见初始化问题，不是抓取逻辑失败。解决方法有两种：一种是按提示安装 Puppeteer 需要的 Chrome；另一种是像我这样，直接让它使用本机已经安装好的 Google Chrome

这次跑通了，耗时大约 7 秒，终端返回：已保存: 20260601_福布斯2024中国内地富豪榜：钟睒睒连续4年成首富.md

生成的 Markdown 里包含文章标题、公众号、作者、发布时间、原文链接、正文，以及图片列表。这说明它至少在这篇文章上是能工作的，而且输出结构对后续整理很友好。

但是图片一开始是会崩的，需要你指定一个图片下载后上传的位置，我是把它上传到了飞书CLI里

如果你的需求只是“把文章保存进知识库”，save-markdown.js 就够用。

如果你想把它接进自己的工作流，比如先抓 JSON，再做摘要、打标签、生成选题库，就可以直接用 scrape-wechat.js，因为它返回的是结构化 JSON。

2、到底是什么东东

这个工具更接近一个 Skill 包。

简单说，Skill 不是一个独立 App，你可以把它理解成给智能体准备的一套“任务说明 + 脚本工具 + 使用文档”。当你告诉智能体“调用这个 Skill 抓取公众号文章”时，智能体会按 SKILL.md 里的说明去运行脚本。

项目原理如下：


这个包里的核心脚本是 Node.js 写的，依赖 Puppeteer。Puppeteer 是一个浏览器自动化库，官方文档的说法是，它可以通过 Chrome DevTools Protocol 和 WebDriver BiDi 自动化 Chrome 与 Firefox。

换句话说，它不是假装自己在抓网页源码，而是真的启动一个浏览器，让页面先像正常用户访问一样渲染出来，再去页面里找公众号正文容器。

3、适合谁用

我觉得它最适合三类人。

第一类是内容创作者。你经常需要保存同行文章、整理选题、分析标题和结构。

第二类是知识库重度用户。你看到好文章，不想只收藏链接，因为链接可能失效，也不方便全文搜索。抓成 Markdown 之后，可以放进 Obsidian、Notion、飞书文档或者本地资料库。

第三类是做运营、产品、增长研究的人。公众号里有很多行业观察、案例拆解、活动复盘。手动复制太慢，直接抓取后再做分类分析，会更接近一个可复用的资料流。

如果你经常收藏公众号文章，这个工具值得试一下。

但我不建议把它用成批量搬运工具。公众号文章有版权，抓取也要尊重原作者和平台规则。更稳妥的使用方式，是保存自己有权限阅读的文章，用于个人备份、学习和分析，不要高频批量请求，也不要未经授权二次发布。

ok，我是阿星，

更多AI应用，我们下期再见！