在处理国外网站的的时候会时常遇到403 Forbidden拦截问题?数据采集频频失败,效率低下?
火车采集器针对该类网站提供插件,轻松绕过限制,让你的采集效率飙升!
火车采集器该插件直接调用本地谷歌浏览器进行采集,所以本地谷歌浏览器能打开基本都可以采集,比如403CF盾的网站、js函数加载的网站、post请求的网站、需登录的网站等等。
插件功能概述
本插件专为解决访问国外网站时出现的403 Forbidden拦截问题而开发,适用于通过GET请求可直接获取页面源码的网站,或者是信息是通过渲染后加载的信息(如:Fanatics UK)。
适用条件
-
目标网站的js渲染后的源码需包含待采集数据(也就是F12中看到的数据)。
-
同一台电脑仅支持单任务运行,多任务需顺序执行。如需多开,可联系咨询解决方案。
-
该插件适用的场景较多,如果是需要登录才能显示的网站,只要栏目地址有变化的,也可以适用;因插件是直接调用的谷歌浏览器,只要谷歌中cookie未失效,还省去了登录的烦恼。各种使用场景可以多多尝试~~
-
其他GET请求失败的场景(非Cloudflare拦截)也可尝试使用。
高效使用指南
- 基础设置
在采集规则的其他配置中,填写目标网站返回的错误码(如Cloudflare拦截通常为403)。
- 规则编写
按常规方式配置采集规则(URL、字段提取等),但是源码需要按照插件所缓存的源码的格式,这个缓存的源码是 js渲染后的源码 。
- 运行采集
启动任务后,工具会自动模拟浏览器访问,绕过直接HTTP请求的拦截,但高频率运行还是有拦截风险,可根据网站实际情况降低采集频率。