对应网站的反爬虫策略如何正确使用爬虫代理?

317 阅读4分钟


大部分
http代理的使用方法对于http代理,大量框架的Native Request API都提供的IP代理响应的API, 需要解决的主要就是IP来源的问题了.网络上有优质的http代理(亿牛云动态短效IP一天7元钱), 经过严格的测试, 100个IP中, 平均可用的在90-95左右, 访问延迟均在200ms以上.网络有高质量的爬虫代理IP动态代理出售, 需要您找到相应的产品.例如(亿牛云爬虫代理IP):

优质代理
¶1 产品特点

¶• IP可用率99%,累计提取代理数量:500000+

• IP有效时间2-10分钟

• API代理IP通道最大支持400,多线程处理

•并发请求数量不限制

•高匿代理

•代理IP全国随机

•HTTP,HTTPS,Socket5支

•专属技术支持2 产品优势

¶• 家庭私密IP,可用率99%,带宽高,速度快API单次最大支持提取400IP,支持多线程处理3业务建议

¶•本产品适用于IP池规模和IP质量要求较高,多线程、高并发的业务场景,例如大型网站采集、游戏检测、网站投票等。

• 联系客服QQ:2221256510

进行人官网注册可以进行免费测试来判断代理
IP是否可以用。http://ip.16yun.cn:817/reg_accounts/register/?sale_user=ZM_seven7

因为有些代理
IP的质量不好,采集目标网站延迟加大,失败率提高。需要在框架中设置异常的处理。当然使用高质量的爬虫代理也是不克避免的有一些网站是基于cookies做反爬虫, 注意很多网站,可以先用代理ip+ua(ua库随机提取)访问,之后会返回来一个cookie,那ip+ua+cookie就是一一对应的,然后用这个ip、ua和cookie去采集网站,同时能带上Referer,这样效果会比较好。除非是访问网站或APP专用数据api接口,正常的HTTP请求都需要进行ua(User-Agent)优化,因为ua是浏览器标识,如果http请求没有ua,或ua太少,都会被网站运维统计异常的,ua越丰富分布就越真实。

比如多开线程
,如果长时间循环爬取数据,那肯定是快速封爬虫代理, 需要您用任务队列实现配合爬虫代理可以简单解实现抓取目标网站数据大批量爬取目标网站的内容后, 就会触发目标网站的反爬虫机制. 需要增加报警措施.

一般情况下,被反爬虫后
, 请求返回的HttpCode为403的失败页面, 有些网站还会返回输入验证码(如淘宝携程企查查), 判断出现403状态直接信息报警处理, 可以参考一些监控框架, 如Metrics等, 在一定时间内出现预定的错误率发邮件或短信。对方如果做了js统计或者其他反爬策略,即使换爬虫代理也不一定能解决问题,就需要去针对性的分析对反爬策略,如果只靠代理ip就能搞定所有网站,那就不需要做爬虫程序了,大家直接一个框架+IP搞定。爬虫采集的效果,是爬虫程序+代理IP配合的。当然, 单一的检测403错误并不能解决所有情况.

有一些网站有更深入的反爬措施
, 反爬虫后返回的http状态码仍还是200的(如淘宝携程拼多多), 这时候往往爬虫任务会进入解析阶段, 解析失败是必然的. 解决这些办法, 也只能在解析失败的时候, 发送报警, 当警告一定时间内到达一定阀值, 再触发通知事件.当然这个解决部分并不是唯一, 不同网站的反爬机制对应使用爬虫代理的方案也不一样,需要什么样的产品可联系亿牛云客服或者进入亿牛云官网进行选购。(www.16yun.cn)