jsoup:一款Java开源HTML解析工具

1,906 阅读1分钟
原文链接: hao.jobbole.com

jsoup 是一个用于解析HTML的Java 类库。它提供了一套非常方便快捷的API,通过DOM、CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup 实现了WHATWG HTML5标准,并且能同主流浏览器一样将HTML网页解析成相同的DOM结构。

主要功能

  • 从一个URL、文件或者字符串中抓取并解析出HTML网页。
  • 通过遍历DOM或者使用CSS选择器找出并提取数据。
  • 对HTML元素、属性和文本执行操作。
  • 通过定义安全白名单的方式来处理用户提交的内容,以阻止跨站脚本攻击。
  • 输出格式规范且易读的HTML。

示例

抓取Wikipedia 主页解析为DOM,从种选择news栏目存入Element列表(在线示例):

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

开源

开发资源

官方网站:jsoup.org/
开源地址:github.com/jhy/jsoup/