众所周知HTTP代理成了网络爬虫不可缺少的一部分。而且隧道转发的爬虫代理业成了爬虫的首选。选择代理IP需要注意的问题:代理IP的稳定性、代理IP的有效时间。
代理IP稳定性:网络爬虫通过http代理做业务时,http代理不会出现任何稳定,保证业务有效进行。
代理IP有效时间:代理IP的有效时间是指每个代理IP可以用多长时间。就相当于一个IP的生命周期,有效时间一到,IP就无法使用了,爬虫用户可以利用这个参数来规避失效IP一直使用。
隧道转发爬虫代理有效时间如何选择:
隧道转发的爬虫代理有效时间一般分为20秒或者180秒可选。
IP有效时间20秒和180秒该如何选择:
20秒有效时间更短,但是可以提供的IP数量更多,180秒有效时间更长,但是可以提供的IP数量更少,除非业务采集必须,应该选择20秒代理有效时间,提供更多的IP,避免网站反爬策略
php
// 要访问的目标页面
$url = "http://httpbin.org/ip";
$urls = "https://httpbin.org/ip";
// 代理服务器(产品官网 www.16yun.cn)
define("PROXY_SERVER", "tcp://t.16yun.cn:31111");
// 代理身份信息
define("PROXY_USER", "username");
define("PROXY_PASS", "password");
$proxyAuth = base64_encode(PROXY_USER . ":" . PROXY_PASS);
// 设置 Proxy tunnel
$tunnel = rand(1,10000);
如果是使用传统的API提取的优质代理,一般有效时间代理商可以定制的,一般网络爬虫可以选择2-10分钟有效时间的优质代理,保证代理再2分钟内采集有效数据,可以通过2分钟这个参数来切换IP。