如何做到一站检索前沿主流 AIGC / GPT 文章?定时任务抓取文章!

501 阅读2分钟

前言

大家好,我是 「周三不Coding」。今天给大家分享一下我最近上线的一个网站(已成功运营一坤天!)。

预览地址:www.gpt-rss.com/

备用地址:gpt-rss.vercel.app/

Github 地址:github.com/ltyzzzxxx/g…

该网站通过定时任务,抓取各大与 AIGC / GPT / LLM 相关的公众号、订阅号、技术网站的最新文章,并聚集汇合到网站中,方便进行集中的阅读与检索。

项目概览图

iShot2023-06-30 00.53.45.png

项目核心功能介绍

  • 支持每日定时从各大公众号中拉取文章,并写入到服务器文件中

  • 网页端支持搜索、筛选功能,检索历史文章

  • 支持 PC 端 / 移动端适配

  • 前端使用 Vue3 + Vite4 + TypeScript 进行改写,均为最新版本

项目技术栈

前端

前端
Vue 3
Vite4 快速构建
Vant UI 组件库
TypeScript 类型控制
Eslint 代码规范控制
Prettier 美化代码
dayjs 时间处理

后端

后端
Node.js
simple-git 操作 Git
later 定时任务
async 执行异步抓取文章任务
fs-extra 执行读取与写入文件操作

项目核心流程

如下即为后端定时任务核心流程:

whiteboard_exported_image (6).png

  1. 启动定时任务

  2. 定时任务触发,根据已定义好的 RSS 源,执行抓取文章操作

  3. 将抓取文章标题、链接、作者、日期等信息写入本地文件中

  4. 根据 README 等模板,更新 README 等文件,并提交到代码仓库

    • README:记录文章更新条数、时间等
    • TAGS:根据标签信息记录文章信息
    • CATEGORIES:根据文章来源记录文章信息

项目部署

  • 前端:Vercel 网站托管服务,一键部署免运维
  • 后端:部署到云服务器,并通过 pm2 运行定时任务,可支持查询日志、监控性能

总结

这就是项目的大概情况啦,大家有兴趣的可以点击去看看。

此外,如果你有高质量的 GPT 相关的公众号、订阅号推荐,请提出 Issue,我会及时进行更新,感谢分享!

  • 感谢 RSSHub 提供的微信公众号 RSS 链接