jsoup 是一个用于解析HTML的Java 类库。它提供了一套非常方便快捷的API,通过DOM、CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup 实现了WHATWG HTML5标准,并且能同主流浏览器一样将HTML网页解析成相同的DOM结构。

主要功能
- 从一个URL、文件或者字符串中抓取并解析出HTML网页。
- 通过遍历DOM或者使用CSS选择器找出并提取数据。
- 对HTML元素、属性和文本执行操作。
- 通过定义安全白名单的方式来处理用户提交的内容,以阻止跨站脚本攻击。
- 输出格式规范且易读的HTML。
示例
抓取Wikipedia 主页解析为DOM,从种选择news栏目存入Element列表(在线示例):
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
开源
开发资源
官方网站:jsoup.org/
开源地址:github.com/jhy/jsoup/