闲来无事,使用GPT+langchain做了一个简易自动化网络爬虫工具

2,730 阅读1分钟

感觉GPT可以让网络爬虫更简单更有效,原因有:

  1. GPT可以理解每个网站的内容,这样实际上就不需要编写复杂的爬虫规则了
  2. 借助AutoGPT的思想,GPT可以联网检查爬虫结果的正确性,或者根据已经爬取的结果通过联网自动补充爬虫时缺失的信息

langchain则是一个很牛逼的项目,它应该是目前GPT应用层的最流行的项目。

在网上没有找到相关的项目,所以干脆自己写了一个利用GPT-3.5和langchain进行自动网络爬虫的工具,它可以根据你的需求自动进行搜索、阅读网页、提取你需要的结构化数据;如果在阅读网页的过程中发现有一些信息没有找到,它也可以联网进行搜索补充。最后可以得到完整的数据爬取结果。

github链接是:github.com/gh18l/Crawl…,想看看大家有没有建议,感兴趣的朋友也可以一起讨论参与。

最后顺便推广下我的推特(@gh18_l)和微博(HanXYZ18),主要是坚持发一些关于大模型的最近top热门的论文或文章的解读笔记,可以一起学习共同进步。