如何通过LLM爬取网站网站爬取常规网站，一般可以通过网络爬虫来抓取。但对于一些复杂网站，通过xpath获取指定HTML

网站爬取

常规网站，一般可以通过网络爬虫来抓取。但对于一些复杂网站，通过xpath获取指定HTML元素会比较复杂。好在大模型出现后，可以使用基于LLM的一些agent来简化。这个视频(This is how I scrape 99% websites via LLM)就介绍了一套不错的工具:
AgentQL

如下图，为了获取搜索按钮，一般会使用JPath。但因为界面易变，每次界面变更对应的JPath需要重新获取。能不能更语义化些呢?
可以! 安装AgentQL后，在"AgentQL"Tab页内输入search_button,获得结果如下:

更为复杂的获取商品列表，可以如下所示, 输入：

{
  products[]{
     price,
     description,
     img,
     number_of_payer(Integer)
  }
}

更多最佳实践可以参考文档Best Practice