爬虫自动化的研究

909 阅读1分钟
  • browser-use:AI操作浏览器,AI效率低+特别费token,并且登录会被识别为人机

  • auotma,部分网站可以(掘金、新京报),元素可能不统一,工作流入门难度不低,测试medium不行

  • dify配合firecrawl爬取单页面,可以场景:爬取某个关键词下的该页面的几条数据,某个网址的详细的各种数据,配合LLM

  • crawl4ai,抓取单页面数据和firecraw类似,不过这个是开源的

掘金数据爬取:首先使用automa抓取掘金关键词下的所有url,导出scv,然后使用dify的爬取单页面的工作流批量爬取,把scv导入进行抓取(掘金可行)

medium数据爬取:使用medium的文章搜索网站:www.searchmedium.io/ 先使用automa获取所有页面的所有链接,导出来,再导入dify的爬虫分析>

automa工作流设置:思路:使用两层循环(外层index+2,内层loopid+1),外层循环循环点击下一页,里面循环循环遍历元素并点进去获取tab页的url然后返回,截图:

dify工作流设置(变量设置最大参数,url的长度可能比较长):

缺点:

  • medium的网站一页10条数据,总共有10页,总共100条数据,相当于某个主题下的数据不多
  • dify使用的爬虫工具每个月有额度,并且对大文件的支持不友好

地址链接: