2024/8/9 由上海人工智能实验室发布更新 全面多模态评估基准,推进通用医学人工智能的发展。
一、目前遇到特定的挑战
1、现有的基准测试大多是基于特定的学术文献,可能只针对医学领域的某一个方面或单一领域,没有涵盖广泛的临床场景和需求。
2、现有的基准测试没有全面地评估大型视觉语言模型(LVLMs)在不同医学任务上的表现,缺乏不同的感知粒度(比如图像级别、区域级别)上的能力。
GMAI-MMBench: 目前最全面的通用医疗AI基准测试,具有良好分类的数据结构和多感知粒度。通过词汇树结构,用户可以根据自己的需求定制评估任务。满足各种评估需求,并大大支持医学AI研究和应用。
数据集地址:GMAI-MMBench|医疗AI数据集|评估基准数据集
二、让我们来看一下 GMAI-MMBench
GMAI-MMBench 是目前最全面的通用医疗AI基准测试,用于测试大型视觉语言模型(LVLMs)在真实世界临床创建中的能力,具有3个关键特征:
1、全面的医学知识:它由来自全球285个不同的临床相关数据集组成,涵盖了39种模式。
2、数据结构分类整齐:包含18个临床VQA任务和18个临床科室,精心组织成一个词汇树。
3、多感知粒度:交互方法从图像到区域层面,提供不同程度的感知细节
三、让我们一起看一下GMAI-MMBench的应用场景
比如帮助在医院工作的放射科医生,每天可能要分析大量的CT扫描图像来帮助诊断病人的病情。通过智能的医学影像分析系统,使用了GMAI-MMBench 这个基准来训练和测试它的能力。
这个系统就能够处理各种类型的CT图像,包括不同部位、不同疾病阶段的影像。同时在GMAI-MMBench的帮助下,接受了全面的能力测试,包括识别肿瘤、评估病变严重程度、区分正常和异常组织等等。
另外每个医院都有自己的优势,医院可以根据自己常遇到的病例类型,通过定制化评估功能,使系统更专注于某些特定区域的影像分析,比如肺部或脑部。