JSoup与代理IP的结合

639 阅读1分钟
      Java 的jsoup 是标准的HTML解析器,可采集指定的网页网站数据。通过简洁易用的API,调用DOM、CSS实现jQuery的操作提取特定的数据。jsoup 的特性:

1. HTML数据解析分析

2. DOM或CSS选择器定位直接获取数据

3.HTML元素、属性、文本的直接交互

      在数据采集的过程中,部分网站会限制爬虫访问,这种时候就需要使用代理IP,为每个http请求分配不同的IP地址,实现数据快速采集请求的目的。

      对于jsoup 下如何配置使用代理IP,下面的demo实现了简单的逻辑描述,可以直接参考使用:

import java.io.IOException;

import java.net.Authenticator;

import java.net.InetSocketAddress;

import java.net.PasswordAuthentication;

import java.net.Proxy;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

public class Demo

{

    // 代理验证信息

     final static String ProxyUser = "username";

     final static String ProxyPass = "password";

    // 代理服务器(产品官网 www.16yun.cn)

     final static String ProxyHost = "t.16yun.cn";

     final static Integer ProxyPort = 31111;

     // 设置IP切换头 final static String ProxyHeadKey = "Proxy-Tunnel";

     public static String getUrlProxyContent(String url)

     {

        Authenticator.setDefault(new Authenticator() {

            public PasswordAuthentication getPasswordAuthentication()

           {

             return new PasswordAuthentication(ProxyUser, ProxyPass.toCharArray());

            }

        });

       // 设置Proxy-Tunnel

       Random random = new Random();

       int tunnel = random.nextInt(10000);

       String ProxyHeadVal = String.valueOf(tunnel);

       Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress(ProxyHost,        ProxyPort));

        try

        {

             // 处理异常、其他参数

             Document doc = Jsoup.connect(url).timeout(3000).header(ProxyHeadKey, ProxyHeadVal).proxy(proxy).get();

             if(doc != null) {

                  System.out.println(doc.body().html());

              }

            } catch (IOException e)

            {

                e.printStackTrace();

             }

              return null;

           }

           public static void main(String[] args) throws Exception

           {

              // 要访问的目标页面

              String targetUrl = "httpbin.org/ip"; getUrlProxyContent(targetUrl);

            }

    }