对话式AI与信息抽取技术探索本文探讨了利用自然语言处理和信息抽取技术从海量信息中提取可靠知识的方法，介绍了SmartBo

“帮助人们可靠地获取信息……这是我的动力”

某机构学者Heng Ji，领导UIUC的Blender实验室，她的使命是将真正有价值的信息与噪声区分开来。

作者：Sean O'Neill，2023年8月2日，阅读时长6分钟

曾经，我们可以自信地抓住周围的信息线索，将它们编织成有用的知识，因为质量较高的线索往往更突出。如今，当我们被信息海啸裹挟时，很难知道该获取什么、该信任哪些信息。某机构学者Heng Ji，伊利诺伊大学厄巴纳-香槟分校（UIUC）的计算机科学教授，毕生致力于帮助我们区分信号与噪声。

某机构学者Heng Ji领导Blender实验室，致力于构建一个未来：计算机能够辨别精确、简洁且可靠的知识。

“这是一个挑战，但如果我们不解决它，这将成为一个严重的社会问题，”Ji说，她也是某机构-UIUC交互式对话体验人工智能中心（AICE）的主任。“帮助人们可靠地获取信息，以便他们做出正确的选择：这是我的动力。”

为此，Ji领导UIUC的Blender实验室，致力于构建一个信息可及的未来：计算机能够从信息海啸中辨别出精确、简洁、可靠的知识。不仅如此，她表示，我们还将能够通过自然语言与计算机对话来获取这些可靠知识。

“我们想知道谁对谁做了什么、在哪里、何时，实体、事件和行动，主张与反主张，它们之间的相互联系，然后理解这一切，”Ji说。

Ji应对这一挑战的关键方法是自然语言处理（NLP）以及她在信息抽取（IE）方面的开创性工作。

态势报告

信息抽取的根源可以追溯到信息理解会议（MUC），这是美国国防高级研究计划局在20世纪80年代末启动的一系列活动。该计划由Ralph Grishman共同领导，他后来成为Ji的博士导师。如今，Ji正将信息抽取带回其本源，她的团队在三月份展示了一项名为SmartBook的技术，该项目得到了美国国防高级研究计划局（DARPA）和美国国家科学基金会的支持。

在灾难时期（如全球大流行病）或持续冲突中（如俄罗斯入侵乌克兰），良好的决策需要收集关于地面现实的全面情报。在冲突中，这种情报被称为态势报告（sitreps）。

分析师和人道主义工作者必须每天收集并消化大量最新文件，然后将其与广泛的本地和文化知识以及灾难的更广泛动态相结合。只有这样，分析师才能创建有用的态势报告，供军事领导人或政治家用于制定战略决策。这是一个难以自动化的过程。

2022年，Ji遇到了非营利组织Data Friendly Space，该组织每两周制作一次乌克兰危机的态势分析报告。“我想通过自动化他们的态势报告初稿来帮助这个团队，这样他们就可以把时间花在自己真正擅长的事情上——利用他们的专业知识来完善该初稿，添加具有战略重要性的信息并提出建议。”

Ji和她的合作者（由美国陆军研究实验室的Clare Voss领导）提出的方案是SmartBook框架。以乌克兰危机为案例研究，SmartBook消化来自互联网的大量新闻数据，自动提取包括事件、地点、人物、武器和军事行动在内的信息，并将所有这些整合起来生成态势报告。这些报告以时间线结构呈现，将重大事件作为章节，相关的战略问题作为章节标题，并在相应摘要下附上信息来源链接。一切都是自动化的。

图1：SmartBook中关于俄乌冲突态势报告的嵌套信息示例。跟随粉色部分查看一个为期两周的时间线如何被分章节为一系列关键事件，每个事件又分支为与战略问题相关的章节标题。每个战略问题又链接到相关的主张，每个主张都有事实证据和相关的知识元素（实体和事件）支持。

虽然SmartBook使用大语言模型（LLMs）根据从新闻来源提取的主张生成摘要（图1，右下角），但它只是SmartBook框架中的众多组件之一。例如，仅靠ChatGPT无法生成结构化的态势报告，尤其是因为它没有基于最新信息进行训练。而且大语言模型容易产生幻觉，生成的信息或“答案”不基于源新闻数据，导致输出可能不准确、误导或完全虚构。

当一位专家分析师被要求编辑SmartBook生成的态势报告时，他们在文档中添加了更多细节，但只删除了约2%的内容。“这表明SmartBook可以作为分析师扩展生成态势报告的良好起点，”Ji说。

这个早期版本的SmartBook依赖于英文新闻报道，但Ji的团队目前正在增加信息源和语言的多样性，以生成更全面的图景。

药物发现

Ji的另一个热情是将她的技能应用于支持药物发现。Ji设想了一个未来：医生可以写几个句子描述治疗特定患者的定制药物，然后收到具有所需特性的药物精确结构，进而可以按需测试和合成。目前，单一新药的开发可能需要十多年时间，成本超过十亿美元。

Ji和她的团队开发了一种新颖的学习框架，能够联合表示分子和语言，并实现两者之间的转换。“我接受的是计算语言学家的训练，所以我倾向于将一切视为外语，包括分子、图像或视频，”她说。

该框架名为MolT5——一个自监督学习框架，用于在大量未标记的自然语言文本和分子字符串（表示分子结构的符号系统）上预训练模型。给定一个分子字符串，Ji和她的团队报告称MolT5将提供包含该分子药物、原子和化学特性的文本描述。反过来，向MolT5提供所需分子特性的描述，它将生成最符合该描述的分子字符串。

其思路是MolT5或其后续版本将允许化学家利用人工智能技术，通过自然语言描述发现新药物。

人机交互

今年三月，Ji通过成为AICE的创始主任，加强了某机构与UIUC之间的关系。AICE旨在开发新的对话式人工智能系统，这些系统能够自动学习、推理、更新自身知识，并以更多模态进行交互。

“如果你的数字助手也能阅读你喜欢的书籍、观看你喜欢的电影，它们就能与你进行更有知识、更丰富、更有趣的对话，”Ji说。“这将使与它们的互动更加自然——更加人性化。”

AICE的另一个重点是提高对话式人工智能系统的真实性、公平性和透明度。

现代信息海啸真的能被驯服吗？“创造力和真实性之间有一个权衡，”Ji说，“但我相信我们可以设计新颖的算法来实现这两个目标。”

对话式人工智能热潮

Ji的整个职业生涯都在从事自然语言处理工作，对于正在考虑将其作为研究领域的学生，特别是考虑到大语言模型的繁荣，她会告诉他们什么？

“首先，保持乐观！这个大语言模型浪潮令人兴奋，尽管它给很多学生带来了冲击，尤其是那些已经处于论文中期阶段的学生，”Ji说。“虽然大语言模型似乎关闭了一些研究途径，但它们开辟了重要的新途径，例如结构化预测、跨文档推理、大语言模型的理论理解、事实错误纠正等等。”

Ji还提到中国谚语“树挪死，人挪活”，并建议将学术和行业研究相结合。自三月份以来，Ji本人作为某机构学者与Alexa组织合作。“我选择了某机构，因为它提供了解决实际问题的机会，”她说。例如，Ji正在与某机构的大语言模型团队合作，开发系统以减少和防止幻觉。

“通过某机构，我希望我所贡献的想法能成为下一代人工智能系统的一部分，让众多客户感受到其益处。这是一种与学术界截然不同的衡量成功的方式，令人耳目一新。”

研究领域

对话式人工智能

标签

自然语言处理、大语言模型、学术合作、伊利诺伊大学厄巴纳-香槟分校FINISHED