2024-10-15,由加州大学洛杉矶分校(UCLA)和腾讯AI实验室西雅图团队联合创建了LongMemEval,一个全面评估聊天助手在长期交互中的记忆力基准测试。
一、研究背景:
近年来,大型语言模型驱动的聊天助手系统通过整合记忆组件来追踪用户-助手的聊天历史,从而能够提供更准确和个性化的回应。然而,这些系统在持续交互中的长期记忆能力尚未得到充分探索。
目前遇到困难和挑战:
1、现有的聊天助手在处理长期用户-AI互动中积累的个人知识时面临限制。
2、当前的数据集和基准测试未能充分反映长期用户-AI互动的特性,且未能全面覆盖长期互动中所需的记忆能力。
3、商业聊天助手和长上下文LLMs在持续交互中记忆信息的准确性显著下降。
数据集地址:LONGMEMEVAL|对话AI数据集|记忆评估数据集
二、让我们一起来看一下LongMemEval
LongMemEval一个全面评估聊天助手在长期交互中的记忆力基准测试。包含500个经过精心策划的高质量问题,这些问题被嵌入到可自由扩展的用户-助手聊天历史中。每个问题都设计来测试聊天助手的五项核心长期记忆能力。
LongMemEval特点 :
1、覆盖信息提取、跨会话推理、时间推理、知识更新和放弃回答等五项核心记忆能力。
- 信息提取:从聊天历史中提取特定信息的能力。
- 跨会话推理:综合多个会话中的信息以回答复杂问题的能力。
- 时间推理:理解和推理与时间相关的信息的能力。
- 知识更新:随着时间的推移,动态更新用户信息的能力。
- 弃权:在问题超出已知信息范围时,选择不回答的能力。
2、 问题类型多样,包括单会话用户、单会话助手、单会话偏好、多会话、知识更新和时间推理等。
3、 聊天历史可自由配置,提供了两个标准设置以供一致比较:LongMemEvalS和LongMemEvalM。
数据集构建:
LongMemEval的数据集是通过一个属性控制的流程构建的,首先定义了一个包含多个用户属性的本体,然后利用大型语言模型生成聚焦于这些属性的用户背景段落。基于这些背景,人工编写问题,并分解答案为一个或多个带有时间戳的证据陈述。这些证据陈述被嵌入到由LLM模拟的用户-助手对话中。
聊天系统需要顺序观察聊天历史,并在所有会话后回答问题。系统需要能够在线解析动态交互以进行记忆,并在之后准确回答问题
基准测试:
LongMemEval提供了两种标准设置以便进行一致的比较:
1、LongMemEvalS:每个问题的聊天历史大约有115k个token。
2、LongMemEvalM:包含大约500个会话,大约1.5百万个token。
初步评估表明,现有的聊天助手和长上下文LLMs在LongMemEval上表现出显著的性能下降,这突显了改进长期记忆能力的迫切需求。
LongMemEval 中七种不同问题类型的示例。对于每个示例,我们在左侧显示相关的证据陈述,在右侧显示带有答案的问题。
LongMemEval 的数据创建管道。问题构建过程由人类专家执行 (a),证据会话是 LLM 模拟和人工编辑 (b)。历史构建过程 (c) 在测试时执行,并且可以自由配置。
通过其不同的问题类型 (a)、对多会话推理的强调 (b) 以及会话中的不同证据位置 (c) 来挑战聊天助手。
运行中具有长期记忆的聊天助手的统一视图。我们制定了三个阶段和四个控制点 (CP)。我们在附录 C 中提供了更多示例。
三、展望LongMemEvalM应用场景:
比如,有个叫李明的学生,他数学不太好,特别是几何和代数,但是他统计学得还不错。他学习数学就是看看课本,看看视频,但是他总是学不到点子上。他哪儿弱,哪儿强,他自己也不是很清楚。考试来了,他才着急,那时候已经晚了。
但是,有了这个LongMemEval加持的助手,悄悄的就发生了改变。
这个助手就像是李明的私人教练,一开始,它给李明出了几道题,测试了一下他的数学水平。然后,它就记住了李明哪些地方不懂,哪些地方已经很棒了。
接下来,助手就给李明定制了一个学习计划,重点帮他提高几何和代数,因为他这两部分比较弱。而且,助手还会记得李明每次学习的情况,比如他在哪类题目上犯了难,下次就会多给他一些类似的题目来练习。
最棒的是,这个助手还能让学习变得更有趣。它会根据李明的学习进度,设计一些数学游戏和挑战,让李明在玩中学,学中玩,这样李明就越来越喜欢数学了,他对学习数学的热情也回来了。
而且,这个助手还会定期给李明的爸爸妈妈发报告,告诉他们李明最近学得怎么样,哪些地方进步了,哪些地方还要加油。这样,爸爸妈妈也能更好地支持李明。