爬虫有很多语言可以选择,不知道选择java的人多不多?今天我想给大家分享下关于使用java做爬虫的一些知识。比如Java 的jsoup 是标准的HTML解析器,可采集指定的网页网站数据。通过简洁易用的API,调用DOM、CSS实现jQuery的操作提取特定的数据。
jsoup也有几个特性:1. HTML数据解析分析2. DOM或CSS选择器定位直接获取数据3.HTML元素、属性、文本的直接交互在数据采集的过程中,部分网站会限制爬虫访问,这种时候就需要使用代理IP,为每个http请求分配不同的IP地址,实现数据快速采集请求的目的。对于jsoup 下如何配置使用代理IP,下面的demo实现了简单的逻辑描述,可以直接参考使用:
import java.io.IOException;
import java.net.Authenticator;
import java.net.InetSocketAddress;
import java.net.PasswordAuthentication;
import java.net.Proxy;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
public class Demo
{
// 代理验证信息
final static String ProxyUser = "username";
final static String ProxyPass = "password";
// 代理服务器(产品官网 www.16yun.cn)
final static String ProxyHost = "t.16yun.cn";
final static Integer ProxyPort = 31111;
// 设置IP切换头
final static String ProxyHeadKey = "Proxy-Tunnel";
public static String getUrlProxyContent(String url)
{
Authenticator.setDefault(new Authenticator() {
public PasswordAuthentication getPasswordAuthentication()
{
return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());
}
});
// 设置Proxy-Tunnel
Random random = new Random();
int tunnel = random.nextInt(10000);
String ProxyHeadVal = String.valueOf(tunnel);
Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost, ProxyPort));
try
{
// 处理异常、其他参数
Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();
if(doc != null) {
System.out.println(doc.body().html());
}
}
catch (IOException e)
{
e.printStackTrace();
}
return null;
}
public static void main(String[] args) throws Exception
{
// 要访问的目标页面
String targetUrl = "http://httpbin.org/ip";
getUrlProxyContent(targetUrl);
}
}
不管使用什么语言爬取数据,都是要做好目标网站反爬机制应对策略的,尤其网站对IP的限制,这里推荐亿牛云代理www.16yun.cn/help/,专业提供高质量爬虫代理IP的,并且还提供了示例文档,对很多新手来说真的很友好。