现在ai编程很强大,如何能高效安全的爬虫是我们更应该关注的 下面是我联系抓取某电商商品详情的操作步骤,欢迎大家一起探讨如何更高效安全。
step1 确定目标
-
找一个信息比较全的商品详情页。如果不是比较全的,后续写书的脚本遗漏信息,也很难发现。
-
右键后点击【存储为……】按钮,保存页面为静态页面。这样可以拿到html结构。
此处注意滚动一下页面,尽可能加载全所有元素。但是还是有可能会丢失一些图片之类的元素,后续写脚本要注意一下,结合线上结构来看,不漏掉重要信息
step2. 给你的cursor/其他coding工具 提示词。
- 声明用存储的本地html文件进行本地测试。
我们对结构的解析一次生成的效果不一定满意,很有可能要调试修改几次才能满意。如果调试过程拼盘远程抓取数据,可能会导致被商家平台监测异常,账号被封。
- 输入
- 使用静态data/xx.html提供dom结构。
- 使用浏览器登录对应网站,拿到相应cookie信息存储到data/mycookie.json 右键-》点击审查元素 打开控制台-》Application -》cookie -》网页地址对应的域名下的cookie,也可以从对应请求的request消息体里获取cookie
- 处理
- 利用有头浏览器爬取商品详情页信息
- 根据html的dom结构,写脚本获取商品详情、售后服务、评论信息 等你想要新信息
- 输出
- 单挑数据:输出json结构的数据到res/xx.json
- 多条数据:转成字符串,增量添加到 res/xx.jsonl 文件中以供大模型使用
step3 循环处理
如果有很多页面,那一定要监测一下,是否有不同的xpath(及不同的dom结构,导致信息抓取失败)