我自己写了 6 周 AI 新闻爬虫,最后被一个免费工具替代了

16 阅读4分钟

我自己写了 6 周 AI 新闻爬虫,最后被一个免费工具替代了

工具推荐贴。自己用了 2 周觉得替换掉了之前的方案,分享一下。不是软文,没人给我钱。

起因:我之前自己做过一版,差点放弃

过去半年我每天的早晨基本是这样过的:

  • 打开 X,刷 OpenAI / Anthropic / DeepMind 几个官号
  • 切到 HN,看有没有 AI 帖上首页
  • 切到 arXiv cs.LG / cs.AI,看新论文摘要
  • 打开 HuggingFace 看 trending model
  • 翻 The Batch / Import AI / Last Week in AI 三份 newsletter

全部走完 30 分钟。然后过半小时同事说"诶今早 OpenAI 发的那个你看了吗"——我没看见。

后来我自己写了一个 agent 定时跑:每天早上拉 X / arXiv / 几个 blog,做摘要发到我邮箱。结果踩了一堆坑:

  • 信源不稳:今天 RSS 还能用,明天就 403 了;几个 blog 改版后 selector 跪了;arXiv 偶尔限流
  • 维护成本高:每周都要花时间修爬虫,加新源、删失效源、调超时
  • 邮件发送麻烦:最早用 SMTP 经常进垃圾箱,换 SendGrid 又要管 sender reputation,HTML 在 Gmail / 网易邮箱表现差异巨大,移动端经常排版错位
  • 没有打分机制:邮件里堆了 30-50 条 entry,全是平铺的,每天还是要再筛一遍
  • 没办法判断"重要":今早 OpenAI 那个 blog 我自己 agent 抓到了,但和 arXiv 上一篇普通论文同样优先级展示

到第 6 周我已经在花更多时间维护爬虫,而不是读内容了。差点就放弃这件事了,正巧前段时间在 Product Hunt 上看到 DeepSignal,点进去用了 2 周——上面那一串问题它居然都解决了。

所以来掘金分享一下。

工具:DeepSignal

DeepSignal — 一个免费的每日 AI 信号聚合站。

主要做的事情:

  • 27 个源每天爬(前沿实验室博客 / 模型厂商 / 芯片厂 / arXiv / HN / 主流 newsletter)—— 比我自己维护的那个稳定 N 倍
  • 每条文章打 Signal Score(0-100) —— 直接告诉你哪条值得读
  • 每日早 8 点推送 —— 邮件 + 飞书机器人,按你时区
  • 8 大垂类 —— 模型 / 智能体 / 基础设施 / 硬件 / 机器人 / 安全 / 政策 / 行业
  • 中英双语 —— 标题、摘要、推荐理由、日报全部双语
  • 免费 + RSS —— 没有付费墙

让我眼前一亮的:评分公式是公开的

我之前用过几个聚合站,都是黑箱"AI 自动评分",到底为什么这条 70 那条 50 不知道。

DeepSignal 把公式写在了编辑准则页

``` Signal Score = 来源权威性 × 30% 社区质感 × 20% 技术影响 × 25% 阅读价值 × 15% 时效性衰减 × 30%(半衰期 1.5 天) ```

具体每篇文章为什么得 78 分,可以反推回去——这种透明度比"AI 黑箱打分"靠谱多了。

评分大于 70 进入"精选",小于 50 不展示。

截图

home-zh-desktop.png

featured-zh-desktop-hero.png

daily-zh-desktop.png

article-detail-zh.png

看了下技术栈

帮想做类似工具的同学省点研究时间:

  • 前端:Next.js 15 + Tailwind + shadcn/ui
  • 后端:Supabase(Postgres + Auth)
  • 部署:Vercel
  • AI:GPT-4o-mini 做摘要 + 翻译
  • RSS / API 混合的爬虫

整套是 indie 友好的低成本组合。我自己的 agent 当时也是 Vercel + Postgres,看到他们的方案有种"如果我多坚持一点就是这个"的感觉……

几个使用场景(我的真实用法)

场景 1:早上 5 分钟搞定 AI 信息

订阅日报后每天早 8 点收一封邮件。我现在这 5 分钟读完心里有数,不再 FOMO。关键是邮件排版在 Gmail / Outlook / 网易邮箱我都试过,移动端也没破 —— 这个体验我自己当时没做出来。

场景 2:垂类速查

需要看某个领域时直接访问 /featured/robotics/featured/hardware,按 Signal Score 排序的最新内容。

URL 都是 path 形式:/featured/ai/featured/security/featured/policy 等,对 SEO 也友好(看得出作者认真做了 SEO 优化)。

场景 3:周末补一周课

/latest 按时间倒序看完整的近期 AI 进展。每条都有 AI 摘要 + 推荐理由。

场景 4:RSS 接入自己的 reader

如果你和我一样有 RSS reader 习惯,他们暴露了:

  • /feed.xml —— 全部文章
  • /daily/feed.xml —— 仅日报

我直接 pipe 到 NetNewsWire 了。

几个不足(公平起见)

  • 没有移动 App,是 PWA。手机浏览器打开"添加到主屏幕"用
  • 没有个性化,所有人看到的是同一份日报。但其实简报本身很短,没那么需要个性化
  • 没有 GitHub 开源,看 about 页是 indie 独立项目

推荐给:

  • 每天追 AI 进展但被信息过载折磨的人
  • 想快速了解某个 AI 子领域(比如 humanoid / AI safety)的人
  • 想找"高信噪比"一手 AI 资讯入口的人
  • 习惯用 RSS 的人
  • 像我一样自己写过 agent 失败的人 😅

不推荐给:

  • 只关心商业 AI 八卦的人(这站偏技术 + 政策)
  • 想看大量短视频形式 AI 内容的人

链接

  • 站点:ai-deep-signal.com
  • RSS:ai-deep-signal.com/feed.xml
  • 日报 RSS:ai-deep-signal.com/daily/feed.xml

如果你也信息过载,试试看。如果觉得是噪声,欢迎评论吐槽。