大模型评测数据集:OminiBench

711 阅读4分钟

OmniBench: Towards The Future of Universal Omni-Language Models

2024-09-23|M-A-P, U Manchester, QMUL, HKUST, NJU, Dartmouth College| 16

arxiv.org/abs/2409.15…

huggingface.co/papers/2409…

m-a-p.ai/OmniBench

研究背景与意义

v2-9d20ec1970ad92f6aa057d619ed090f3_1440w.jpg

近年来,多模态大语言模型(MLLMs)的迅速发展,旨在整合和解释来自不同模态的数据,包括图像、音频和文本。然而,现有模型在同时处理和推理多种模态方面的能力仍然显著不足,部分原因是缺乏全面的模态基准评估工具。为此,本文提出了OmniBench,这是一个新颖的基准,旨在严格评估模型在同时识别、解释和推理视觉、声学和文本输入方面的能力。我们将能够进行这种三模态处理的模型定义为全语言模型(OLMs)。OmniBench的特点在于高质量的人类注释,确保准确的响应需要对所有三种模态的综合理解和推理。

研究表明,当前的开源OLMs在三模态背景下的指令遵循和推理能力存在关键限制,且大多数基准模型的表现不佳(准确率低于50%),即使在提供图像或音频的替代文本表示时也未能显著提升。这些结果表明,现有的MLLM训练范式往往忽视了从文本、图像和音频构建一致上下文的能力。因此,未来的研究应集中于开发更强大的三模态集成技术和训练策略,以提高OLMs在各种模态中的表现。

研究方法与创新

v2-9e6656fd41d96110a66a85b478368d0b_1440w.jpg

OmniBench的设计基于现有的多模态基准,提出了一种新的任务类型分类,以评估广泛的推理和认知能力。我们的分类体系从基本的感知(如对象识别与描述)到复杂的推理(如情境与环境、身份与关系)进行逐步深入。它涵盖了事件的时间和逻辑顺序理解(如动作与活动、故事描述、情节推理)、空间意识(环境与情境)、实体识别(对象识别与描述)、符号处理(文本与符号)以及定量推理(计数与数量)。这种全面的设计能够评估多模态语言模型在识别、描述、整合信息、理解上下文和进行细致推理方面的能力。

OmniBench包含1142个问答对,任务类型分布、文本长度以及图像和音频特征的详细信息在文中进行了详细说明。数据集的音频内容分为三类:人声(人类语音交流)、声音事件(非语音自然、环境和机械声音)和音乐(各种作品和表演)。这一多样化的任务集旨在揭示现有模型在三模态设置中的优势和劣势,可能指导未来全语言模型的发展。

实验设计与结果分析

v2-dc67357a74461d0652639ae45c6ce3dd_1440w.jpg

在实验过程中,研究者选择了三组MLLM基准模型,分别是:i. 全语言模型(如AnyGPT、Video-SALMONN、UnifiedIO2系列);ii. 视觉语言模型(如InternVL-2系列、Qwen2-VL系列等);iii. 音频语言模型(如LTU系列、Mu-LLaMA、MusiLingo等)。在OmniBench的评估中,主要关注MLLM在给定图像、音频和文本输入的情况下理解和重建上下文的能力。通过设置四个可选答案的问题,使用准确率作为评估指标。

初步结果显示,开源OLM基准模型在各种设置下超过了随机猜测的准确率,然而,表现仍然不尽如人意,尤其是在推理任务上。许多模型在对象识别和描述任务上表现较好,但在情节推理和故事描述等更复杂的推理任务上则显得力不从心。这些发现突显了当前OLMs在整合多模态信息方面的局限性。

结论与展望

OmniBench所提出的新型多模态基准揭示了目前开源多模态大语言模型在同时处理视觉、声学和文本输入方面的困难。研究表明,现有模型普遍存在对语音音频的偏向,而视觉语言模型在使用文本近似时的表现优于音频语言模型。这些发现强调了多模态集成架构设计、训练数据多样性和减少模态偏差的必要性。OmniBench作为推动多模态语言模型进步的重要工具,旨在引导未来更先进、更通用的模型向人类般的多模态理解与推理能力迈进。