隧道转发爬虫代理有效时间如何选择

216 阅读1分钟

众所周知HTTP代理成了网络爬虫不可缺少的一部分。而且隧道转发的爬虫代理业成了爬虫的首选。选择代理IP需要注意的问题:代理IP的稳定性、代理IP的有效时间。

代理IP稳定性:网络爬虫通过http代理做业务时,http代理不会出现任何稳定,保证业务有效进行。

代理IP有效时间:代理IP的有效时间是指每个代理IP可以用多长时间。就相当于一个IP的生命周期,有效时间一到,IP就无法使用了,爬虫用户可以利用这个参数来规避失效IP一直使用。

隧道转发爬虫代理有效时间如何选择:

隧道转发的爬虫代理有效时间一般分为20秒或者180秒可选。

IP有效时间20秒和180秒该如何选择:

20秒有效时间更短,但是可以提供的IP数量更多,180秒有效时间更长,但是可以提供的IP数量更少,除非业务采集必须,应该选择20秒代理有效时间,提供更多的IP,避免网站反爬策略

php
    // 要访问的目标页面
    $url = "http://httpbin.org/ip";
    $urls = "https://httpbin.org/ip";

    // 代理服务器(产品官网 www.16yun.cn)
    define("PROXY_SERVER", "tcp://t.16yun.cn:31111");

    // 代理身份信息
    define("PROXY_USER", "username");
    define("PROXY_PASS", "password");

    $proxyAuth = base64_encode(PROXY_USER . ":" . PROXY_PASS);

    // 设置 Proxy tunnel
    $tunnel = rand(1,10000);

如果是使用传统的API提取的优质代理,一般有效时间代理商可以定制的,一般网络爬虫可以选择2-10分钟有效时间的优质代理,保证代理再2分钟内采集有效数据,可以通过2分钟这个参数来切换IP。