小白-练习抓取某电商平台商品信息

52 阅读2分钟

现在ai编程很强大,如何能高效安全的爬虫是我们更应该关注的 下面是我联系抓取某电商商品详情的操作步骤,欢迎大家一起探讨如何更高效安全。

step1 确定目标

  1. 找一个信息比较全的商品详情页。如果不是比较全的,后续写书的脚本遗漏信息,也很难发现。

  2. 右键后点击【存储为……】按钮,保存页面为静态页面。这样可以拿到html结构。

    此处注意滚动一下页面,尽可能加载全所有元素。但是还是有可能会丢失一些图片之类的元素,后续写脚本要注意一下,结合线上结构来看,不漏掉重要信息

step2. 给你的cursor/其他coding工具 提示词。

  1. 声明用存储的本地html文件进行本地测试。

我们对结构的解析一次生成的效果不一定满意,很有可能要调试修改几次才能满意。如果调试过程拼盘远程抓取数据,可能会导致被商家平台监测异常,账号被封。

  1. 输入
  • 使用静态data/xx.html提供dom结构。
  • 使用浏览器登录对应网站,拿到相应cookie信息存储到data/mycookie.json 右键-》点击审查元素 打开控制台-》Application -》cookie -》网页地址对应的域名下的cookie,也可以从对应请求的request消息体里获取cookie
  1. 处理
  • 利用有头浏览器爬取商品详情页信息
  • 根据html的dom结构,写脚本获取商品详情、售后服务、评论信息 等你想要新信息
  1. 输出
  • 单挑数据:输出json结构的数据到res/xx.json
  • 多条数据:转成字符串,增量添加到 res/xx.jsonl 文件中以供大模型使用

step3 循环处理

如果有很多页面,那一定要监测一下,是否有不同的xpath(及不同的dom结构,导致信息抓取失败)