SCI数据集:由上海交通大学、复旦大学和上海人工智能实验室的研究人员联合发布, 主要评估大型多模态模型在处理自相矛盾指令时的能力

94 阅读3分钟

2024/8/2, Self-Contradictory Instructions (SCI)数据集由上海交通大学、复旦大学和上海人工智能实验室联合发布,旨在评估大型多模态模型处理自相矛盾指令的能力。

目前遇到挑战:

由于多模态交互和上下文长度的不断增长趋势,可能会出现自相矛盾的指令,这对于语言初学者具有挑战性。

又或者当上下文窗口大小增长到100万个token及以上时,用户也很难记住多轮对话中的所有细节以避免指令矛盾,此外,随着模态数量的逐渐增加,可能会发生模态之间的冲突。

Self-Contradictory Instructions (SCI)数据集:主要评估大型多模态模型在处理自相矛盾指令时的能力。

数据集地址:Self-Contradictory Instructions (SCI)|多模态处理数据集

一、我们先来看看数据集:

1、SCI基准测试:

引入自相矛盾指令的基准测试,用于评估LMMs识别冲突命令的能力,该基准测试包含20,000条冲突指令。

均匀分布在语言-语言和视觉-语言两种范式,每种范式下有4种任务类型。

语言-语言:规则冲突、属性冲突、排除冲突、禁止冲突。

视觉-语言:OCR冲突、图形冲突、几何冲突、语义冲突。

这8种任务类型设计用来评估大型多模态模型在处理自相矛盾指令时的能力。

2、基于LLMs的循环框架AutoCreate:

使用了一个新颖的自动化数据集创建框架: AutoCreate,该框架基于程序和大型语言模型来构建多模态循环。

添加图片注释,不超过 140 字(可选)

3、认知觉醒提示(Cap):

为了解决上述问题,通过CaP方法,通过从外部注入认知来增强不和谐检测的能力。

总体来看,CaP技术在提高模型检测自相矛盾指令的能力方面非常有效。

二、对人工智能领域具体应用的潜在影响:

1、客户服务

在聊天机器人和其他客户服务应用中,更好地处理矛盾指令可以提高解决问题的效率和提高客户满意度。

2、智能助手和代理

在个人或企业使用的智能助手中,能够处理复杂的请求,可以提供更加个性化和高效的服务。

3、自动驾驶

在自动驾驶领域,能够处理和解释可能存在的矛盾交通信号或指令,可以确保安全驾驶。

4、法律合规性

在需要整合来自多个来源信息时,对于法律合规性检查中,能够识别出案例的矛盾之处,为法律专业人士提供支持。

开源数据集网站,请打开,遇见数据集

www.selectdataset.com/