网站爬取
常规网站,一般可以通过网络爬虫来抓取。但对于一些复杂网站,通过xpath获取指定HTML元素会比较复杂。好在大模型出现后,可以使用基于LLM的一些agent来简化。这个视频(This is how I scrape 99% websites via LLM)就介绍了一套不错的工具:
AgentQL
获取HTML元素
如下图,为了获取搜索按钮,一般会使用JPath。
但因为界面易变,每次界面变更对应的JPath需要重新获取。能不能更语义化些呢?
可以! 安装AgentQL后,在"AgentQL"Tab页内输入search_button,获得结果如下:
更为复杂的获取商品列表,可以如下所示, 输入:
{
products[]{
price,
description,
img,
number_of_payer(Integer)
}
}
更多最佳实践可以参考文档Best Practice