小白-练习抓取某电商平台商品信息

2025-10-11 52 阅读2分钟

现在ai编程很强大，如何能高效安全的爬虫是我们更应该关注的 下面是我联系抓取某电商商品详情的操作步骤，欢迎大家一起探讨如何更高效安全。

step1 确定目标

找一个信息比较全的商品详情页。如果不是比较全的，后续写书的脚本遗漏信息，也很难发现。
右键后点击【存储为……】按钮，保存页面为静态页面。这样可以拿到html结构。

此处注意滚动一下页面，尽可能加载全所有元素。但是还是有可能会丢失一些图片之类的元素，后续写脚本要注意一下，结合线上结构来看，不漏掉重要信息

step2. 给你的cursor/其他coding工具提示词。

声明用存储的本地html文件进行本地测试。

我们对结构的解析一次生成的效果不一定满意，很有可能要调试修改几次才能满意。如果调试过程拼盘远程抓取数据，可能会导致被商家平台监测异常，账号被封。

输入

使用静态data/xx.html提供dom结构。
使用浏览器登录对应网站，拿到相应cookie信息存储到data/mycookie.json 右键-》点击审查元素打开控制台-》Application -》cookie -》网页地址对应的域名下的cookie，也可以从对应请求的request消息体里获取cookie

处理

利用有头浏览器爬取商品详情页信息
根据html的dom结构，写脚本获取商品详情、售后服务、评论信息等你想要新信息

输出

单挑数据：输出json结构的数据到res/xx.json
多条数据：转成字符串，增量添加到 res/xx.jsonl 文件中以供大模型使用

step3 循环处理

如果有很多页面，那一定要监测一下，是否有不同的xpath（及不同的dom结构，导致信息抓取失败）