如何通过LLM爬取网站

70 阅读1分钟

网站爬取

常规网站,一般可以通过网络爬虫来抓取。但对于一些复杂网站,通过xpath获取指定HTML元素会比较复杂。好在大模型出现后,可以使用基于LLM的一些agent来简化。这个视频(This is how I scrape 99% websites via LLM)就介绍了一套不错的工具:
AgentQL

获取HTML元素

如下图,为了获取搜索按钮,一般会使用JPath。 image.png 但因为界面易变,每次界面变更对应的JPath需要重新获取。能不能更语义化些呢?
可以! 安装AgentQL后,在"AgentQL"Tab页内输入search_button,获得结果如下:

image.png 更为复杂的获取商品列表,可以如下所示, 输入:

{
  products[]{
     price,
     description,
     img,
     number_of_payer(Integer)
  }
}

image.png 更多最佳实践可以参考文档Best Practice