互联网的快速发展,大数据的崛起。HTTP代理也成了网络爬虫的代名词,越来越多的用户解除的HTTP代理,也吸引了许多投资商的关注。
随着市场的需求,代理IP也随着用户的需求,种类也越多来越多,一般分为亿牛云动态短效代理IP,长效代理IP。固定IP等,像亿牛云动态短效代理IP,顾名思义就是IP存活有效期很短,一般每个IP的有效时间在2-10分钟,过了这个时间有效时间,代理IP将无法使用。为何有这么短的代理IP出现,从事网络爬虫的用户都清楚,一旦数据采集,就需要大量的切换IP,不能一个IP长时间访问,所以这款短效代理IP就是为网络爬虫数据信息采集而存在的。
网络爬虫数据采集每天要爬取几万甚至上百万个网站,就需要一直的采集到网站的数据信息,很多网站都有反爬机制,触发反爬机制就会限制IP或者爬虫行为,网络爬虫为了突破ip频繁访问时目标网站的限制,所以必须使用大量的亿牛云动态短效代理ip继续采集数据信息。
网络爬虫对于每个代理ip的使用时间大概就在几分钟左右就需要更换下一个新的代理IP,一个代理IP多次访问目标网站,目标网站服务器也会限制IP或者爬虫行为,数据采集是需要大量的访问目标网站,所以就需要不停的切换新的代理ip才能顺利的完成采集工作,这就是为什么需要使用短效代理ip了。
网络爬虫对于优质短效代理IP都必须要高质量高匿爬虫代理IP。如果爬虫业务需求大,就需要大型IP池隧道转发爬虫代理加强版来支持自己的爬虫业务能顺利进行。代理IP流水大了,网络爬虫才能正常运行。
const request = require("request");
// 要访问的目标页面
const targetUrl = "http://httpbin.org/ip";
// 代理服务器(产品官网 www.16yun.cn)
const proxyHost = "t.16yun.cn";
const proxyPort = "31111";
// 代理验证信息
const proxyUser = "username";
const proxyPass = "password";
const proxyUrl = "http://" + proxyUser + ":" + proxyPass + "@" + proxyHost + ":" + proxyPort;
const proxiedRequest = request.defaults({'proxy': proxyUrl});
const options = {
url : targetUrl,
headers : {
}
};
proxiedRequest
.get(options, function (err, res, body) {
console.log("got response: " + res.statusCode);
})
.on("error", function (err) {
console.log(err);
})
;