一、概述
====
xml 的解析就是操作 xml 文档,将文档内容读取到内存中,解析的方法两种
-
dom:将标记语言文档一次性加载到内存,在内存中形成一颗 dom 树
-
sax:逐行解析
二、dom 和 sax 解析对比
================
dom 解析:
-
根据 xml 的层级结构在内存中分配一个树形结构,把 xml 的标签,属性和文本都封装成对象
-
优点:很方便实现增、删、改操作
-
缺点:消耗内存,会造成内存溢出
sax 解析:
-
采用事件驱动,边读边解析
-
从上到下,一行一行的解析,解析到某个对象就返回对象名称
-
优点:不占内存,方便实现查询操作
-
缺点:只能读取,不能实现增、删、改操作
三、解析器
=====
不同的公司和组织提供了针对 dom 和 sax 方式的解析器,都是通过 api 方式提供的,主要有:
-
sun 公司提供的针对 dom 和 sax 解析器:Jaxp
-
dom4j 组织提供的针对 dom 和 sax 解析器:dom4j(开发中用的最多)
-
jdom 组织提供的针对 dom 和sax 解析器:Jdom
-
Java的HTML解析器,可以直接解析URL地址、HTML 文本内容:Jsoup
四、Jsoup 解析器
===========
1、导入 jar 包
导入 jsoup-1.12.1.jar 包
提取码:rwwo
2、获取 Document 对象
-
parse()方法:解析 HTML 或 xml 文档,返回 Document 对象
-
parse(File in,String charsetName):解析 xml 或 HTML 文件
-
parse(String html):解析 xml 或 HTML 字符串
-
parse(URL url,int timeoutMillis):通过网络路径获取指定的 HTML 或 xml 文档对象
3、获取对应的标签 Element 对象
-
getElementById(String id):根据id属性值获取唯一的element对象
-
getElementByTag(String tagName):根据标签名称获取元素对象集合
-
getElementByAttribute(String key):根据属性名称获取元素对象集合
-
getElementByAttributeValue(String key,String value):根据对应的属性名称和属性值获取元素对象集合
4、获取数据
public static void main(String[] args) throws IOException {
//1.获取Document对象
String path = jsoup.class.getClassLoader().getResource("person.xml").getPath();
Document document = Jsoup.parse(new File(path),"utf-8");
//2.获取元素Element对象
Elements elements = document.getElementsByTag("name");
System.out.println(elements);
System.out.println("******************");
//3.获取第一个name的Element对象
Element element = elements.get(0);
System.out.println(element.text());
System.out.println("******************");
//4.获取属性名为pid的元素对象
Elements elements1 = document.getElementsByAttribute("id");
System.out.println(elements1);
System.out.println("******************");
//5.获取number属性值为15450132的元素对象
Elements elements2 = document.getElementsByAttributeValue("number","15450132");
System.out.println(elements2);
System.out.println("******************");
//根据id属性获取element对象
Element element1 = document.getElementById("一颗星");
System.out.println(element1);
}
5、快捷查询
【1】selector:选择器
使用上面的查询需要先查询到上一级元素才能往下查询,工作量比较大,jsoup 就提供了一种快捷查询的方法,即使用 selector 选择器
- Elements select(String cssQuery)
public static void main(String[] args) throws IOException {
//1.获取Document对象
String path = jsoup.class.getClassLoader().getResource("person.xml").getPath();
Document document = Jsoup.parse(new File(path),"utf-8");