研究发现,OpenAI 的 GPT-4 可以自主利用 87% 的一日漏洞

170 阅读9分钟

伊利诺伊大学厄巴纳-香槟分校的研究人员发现,OpenAI 的 GPT-4 在提供 NIST 描述时能够利用 87% 的漏洞列表。

伊利诺伊大学厄巴纳-香槟分校研究人员的一项新研究发现,OpenAI 的 GPT-4 大型语言模型可以在没有人工干预的情况下利用现实世界的漏洞。其他开源模型(包括 GPT-3.5 和漏洞扫描器)无法做到这一点。

大型语言模型代理(基于 LLM 的高级系统,可以通过工具、推理、自我反思等采取行动)在 GPT-4 上运行,在获得美国国家标准与技术研究所的描述后,成功利用了 87% 的“一日漏洞”。一日漏洞是指那些已公开披露但尚未修补的漏洞,因此仍然容易受到利用。

研究人员在 arXiv 预印本中写道:“随着 LLM 变得越来越强大,LLM 代理的能力也越来越强大。”他们还推测,其他模型的相对失败是因为它们“在工具使用方面比 GPT-4 差得多”。

研究结果表明,GPT-4 具有自主检测和利用扫描仪可能忽略的一日漏洞的“新兴能力”。

伊利诺伊大学厄巴纳香槟分校助理教授、研究作者 Daniel Kang 希望他的研究成果能够用于防御环境;然而,他也意识到这种能力可能为网络犯罪分子提供一种新兴的攻击模式。

他在一封电子邮件中告诉 TechRepublic:“我认为,当 LLM 成本下降时,利用一日漏洞的门槛会降低。以前,这是一个手动过程。如果 LLM 变得足够便宜,这个过程可能会变得更加自动化。”

GPT-4 在自主检测和利用漏洞方面有多成功?

GPT-4 可以自主利用“一日漏洞”

GPT-4 代理能够自主利用 Web 和非 Web 的一日漏洞,甚至是在模型知识截止日期 2023 年 11 月 26 日之后在通用漏洞和暴露数据库中发布的漏洞,展示了其令人印象深刻的功能。

Kang 告诉 TechRepublic:“在我们之前的实验中,我们发现 GPT-4 非常擅长规划和遵循计划,所以我们并不感到惊讶。”

Kang 的 GPT-4 代理确实可以访问互联网,因此可以获取有关如何利用该漏洞的任何公开信息。但他解释说,如果没有先进的人工智能,这些信息不足以指导代理成功利用漏洞。

“我们使用‘自主’这个词的意思是 GPT-4 能够制定计划来利用漏洞,”他告诉 TechRepublic。“许多现实世界的漏洞,例如造成超过 5000 万美元现实损失的 ACIDRain,都有在线信息。然而,利用它们并非易事,对于人类来说,需要一些计算机科学知识。”

在 GPT-4 代理遇到的 15 个一日漏洞中,只有两个无法利用:Iris XSS 和 Hertzbeat RCE。作者推测这是因为 Iris Web 应用程序特别难以导航,并且 Hertzbeat RCE 的描述是中文,当提示是英文时,中文可能更难解释。

GPT-4 无法自主利用零日漏洞

虽然 GPT-4 代理在访问漏洞描述时成功率高达 87%,但在无法访问漏洞描述时,成功率下降到 7%,这表明它目前无法利用零日漏洞。研究人员写道,这一结果表明 LLM“利用漏洞的能力远远大于发现漏洞的能力”。

使用 GPT-4 利用漏洞比人类黑客更便宜

研究人员确定,成功利用 GPT-4 的平均成本为每个漏洞 8.80 美元,而如果雇用一名人工渗透测试人员需要半小时,则每个漏洞的成本约为 25 美元。

虽然 LLM 代理的成本已经比人工便宜 2.8 倍,但研究人员预计 GPT-4 的相关运行成本将进一步下降,因为 GPT-3.5 在短短一年内就便宜了三倍多。研究人员写道:“与人工相比,LLM 代理的可扩展性也很容易。”

GPT-4 采取了许多行动来自主利用漏洞

其他发现包括,相当数量的漏洞需要采取许多行动才能利用,有些甚至多达 100 个。令人惊讶的是,当代理可以访问描述时和不能访问描述时所采取的平均行动次数仅有细微差别,而 GPT-4 在后一种零日设置中实际上采取的步骤更少。

Kang 向 TechRepublic 推测,“我认为,如果没有 CVE 描述,GPT-4 会更容易放弃,因为它不知道该走哪条路。”

LLM 的漏洞利用能力是如何测试的?

研究人员首先从 CVE 数据库和学术论文中收集了 15 个真实存在的、一天内发生的软件漏洞的基准数据集。这些可重现的开源漏洞包括网站漏洞、容器漏洞和易受攻击的 Python 包,其中超过一半的漏洞被归类为“高”或“严重”严重程度。

image.png

提供给 LLM 代理的 15 个漏洞列表及其描述。图片:Fang R 等人。

接下来,他们基于 ReAct 自动化框架开发了一个 LLM 代理,这意味着它可以推理下一步行动,构建行动命令,使用适当的工具执行并在交互循环中重复。开发人员只需编写 91 行代码即可创建他们的代理,这显示了实现起来是多么简单。

image.png

LLM 代理的系统图。图片:Fang R 等人。

基础语言模型可以在 GPT-4 和其他开源 LLM 之间交替使用:

· GPT-3.5

· OpenHermes-2.5-Mistral-7B

· LlaMA-2 chat(70B)

· LLaMA-2 chat (13B)

· LLaMA-2 chat (7B)

· Mixtral-8x7B instruction

· Mistral (7B) indicates v0.2

· We Hermes-2 Yi 34B.

· Open Chat 3.5.

该代理配备了自主利用目标系统漏洞所需的工具,如网页浏览元素、终端、网页搜索结果、文件创建和编辑功能以及代码解释器。它还可以从 CVE 数据库中访问漏洞描述,以模拟一天的设置。

然后,研究人员为每个代理提供了详细的提示,鼓励其发挥创造力、坚持不懈并探索利用这 15 个漏洞的不同方法。该提示由 1,056 个“标记”或单独的文本单元(如单词和标点符号)组成。

每个代理的性能是根据其是否成功利用漏洞、漏洞的复杂性以及努力的美元成本来衡量的,基于输入和输出的令牌数量和 OpenAI API 成本。

实验还重复进行,在实验中,代理没有获得漏洞描述,以模拟更困难的零日攻击环境。在这种情况下,代理必须发现漏洞,然后成功利用漏洞。

除了代理之外,研究人员还向漏洞扫描器 ZAP 和 Metasploit 提供了相同的漏洞,这两款产品都是渗透测试人员常用的。研究人员希望比较它们在识别和利用漏洞方面的有效性以及 LLM 的有效性。

最终发现,只有基于 GPT-4 的 LLM 代理才能发现并利用一日漏洞 — 即当它可以访问其 CVE 描述时。所有其他 LLM 和两个扫描仪的成功率均为 0%,因此未进行零日漏洞测试。

研究人员为什么要测试 LLM 的漏洞利用能力?****

这项研究的目的是为了解决 LLM 在无需人工干预的情况下成功利用计算机系统中一日漏洞的能力方面的知识空白。

当 CVE 数据库中披露漏洞时,条目并不总是描述如何利用该漏洞;因此,想要利用漏洞的威胁者或渗透测试人员必须自己想办法。研究人员试图确定使用现有 LLM 实现此过程自动化的可行性。

伊利诺伊团队此前曾通过“夺旗”演习展示了 LLM 的自主黑客能力,但并未在实际部署中展示。其他工作主要集中在网络安全“人性化”背景下的人工智能,例如,黑客得到了GenAI 驱动的聊天机器人的协助。

Kang 告诉 TechRepublic:“我们的实验室专注于前沿人工智能方法(包括代理)的能力这一学术问题。由于网络安全的重要性,我们最近专注于网络安全。”

智答专家:国内免费使用GPT-4.0的AI智能问答工具

分享一个国内免费使用GPT-4.0的AI智能问答工具:智答专家。支持AI文本、作图、语音、Sora视频。无需魔法,亲测有效,访问链接:t.aizdzj.com/?p=MTAwNzE2…

智答专家是一款强大的AI智能问答工具,它基于GPT-4.0技术,为用户提供了一个国内免费使用的平台。无论是需要文本生成、图像制作、语音交互还是视频内容的创建,智答专家都能提供支持。这个工具的独特之处在于它集成了多种功能,用户可以在一个平台上完成多种类型的AI交互,极大地提高了工作效率和创造力。

与其他AI聊天机器人相比,智答专家具有以下优势:

多功能集成:  支持文本、图像、语音和视频的生成,满足不同场景的需求。

免费使用:  在国内用户可以直接访问并使用,无需任何额外费用。

用户体验:  界面友好,操作简单,即使是AI新手也能快速上手。

高效准确:  基于GPT-4.0的强大能力,智答专家能够提供高质量的回答和内容生成。

无论你是一名学生、教师、内容创作者还是企业用户,智答专家都能为你提供强大的AI支持,帮助你在各自的领域内实现更高效、更有创意的工作。不妨试试智答专家,探索AI带来的无限可能。

image.png