深度解析阿里达摩院Lingshu:7B开源医疗模型,如何在16个基准上超越GPT-4.1?

0 阅读6分钟

本文首发于公众号「波哥说一说」,关注获取更多医疗AI技术深度解析。


引言:医疗AI的长期痛点

做过医疗AI的人都知道,这个场景有三个几乎绕不过去的硬伤:

① 医疗知识覆盖太窄——大多数模型只会做"影像+报告"的基础配对,药理、临床路径、公卫等维度几乎空白。

② 幻觉风险居高不下——医疗数据标注质量参差不齐,模型动不动"一本正经地胡说",在诊断场景这是致命的。

③ 缺乏复杂推理能力——能答"这是什么病",但答不出"为什么是这个病、下一步该怎么处理"。

2025年6月,阿里巴巴达摩院LASA团队在arXiv上发布了 Lingshu(灵枢) ,声称在16个主流医疗基准上实现开源SOTA,32B版本部分指标超越GPT-4.1。

这是真实的技术突破,还是通常意义上的"论文表演"?拆开来看一下。


一、Lingshu的核心架构

Lingshu 基于通义千问开源的 Qwen2.5-VL 底座,提供两个参数版本:

  • Lingshu-7B(基于 Qwen2.5-VL-7B-Instruct)
  • Lingshu-32B(基于 Qwen2.5-VL-32B-Instruct)

完整保留了视觉编码器 + LLM主干 + MLP投影层三大组件,没有额外引入架构改动——核心创新全部集中在数据工程训练范式上。

这个选择本身就说明了一个判断:在医疗垂直领域,数据质量>模型架构。


二、最重要的创新:505万条医疗数据的治理流水线

这是Lingshu最核心的技术贡献,也是最容易被忽视的部分。

2.1 数据规模

最终构建了 505万条 高质量医疗训练语料,覆盖 12种医学影像模态:X光、CT、MRI、超声、病理切片、皮肤镜、眼底、OCT、内镜、PET等。

数据来源分四类:

类型内容代表来源
多模态医疗数据医疗图文对标注+指令微调LLaVA-Med、PubMedVision、MIMIC-CXR
单模态医疗文本医疗QA + 临床推理蒸馏MedQA、HuatuoGPT
单模态医疗影像12种模态原始影像+人工标注原始影像数据集
通用域数据通用图文+指令跟随通用数据集

2.2 数据清洗的关键细节

影像层:过滤分辨率低于64×64的低质量图片;感知哈希算法零阈值去重(保证没有重复样本)。

文本层:大模型合规性清洗医患对话数据,删隐私信息、修正违规诊断建议、补充医疗免责声明。

全量层:MinHash局部敏感哈希算法文本去重,严格剔除与评估基准重叠的数据——这一步直接决定了评测结果的可信度。

2.3 高质量合成数据:130万条

在原始数据基础上,额外合成了130万条高质量样本:

合成类型数量核心方法
长文本影像描述10万条五阶段流水线,基于GPT-4o生成
OCR指令数据5万条覆盖医学考试题目,大模型生成推理步骤
医疗VQA样本50.4万条模板化+自指令双策略
医疗推理轨迹蒸馏14.6万条GPT-4o生成CoT推理,仅保留答案完全一致的样本

三、四阶段渐进式训练范式

训练分四个阶段,每一步解决一个具体问题:

阶段目标关键设置数据量
阶段一:医疗浅度对齐建立图文基础语义对齐冻结LLM,只训练视觉编码器+MLP,1 epoch92.7万条
阶段二:医疗深度对齐深度注入医疗知识全参数解冻,端到端微调,1 epoch410万条
阶段三:医疗指令微调提升指令跟随能力全参数微调+数据打包技术,2 epoch710万条
阶段四:医疗导向强化学习增强多模态推理能力GRPO算法RLVR,1 epoch10万条

这个设计最聪明的地方

  • 阶段一冻结LLM——避免粗粒度数据损伤语言能力
  • 阶段二加入通用域数据——防止过度垂直化丧失泛化能力
  • 阶段四是首次将RLVR范式应用于医疗多模态模型,这是真正的技术创新点

四、实验结果:数字是否经得起推敲?

多模态医疗QA(核心)

模型平均准确率类型
Lingshu-32B66.6开源 ✅
Gemini-2.5-Flash65.1闭源
GPT-4.163.4闭源
Claude Sonnet 461.5闭源
Lingshu-7B61.8开源 ✅
InternVL3-8B57.3开源

Lingshu-32B 在 SLAKE、PathVQA、OmniMedVQA 等多个单基准上登顶全球第一。

Lingshu-7B 领先第二名InternVL3-8B 4.5个百分点,用7B参数打出了和GPT-4.1相当的成绩。

关键可信度验证

评测数据集去重做了 MinHash 严格过滤,评估框架用的是 MedEvalKit(同步开源),评测过程可复现——这比很多只放 cherry-picked 结果的论文要诚实得多。


五、MedEvalKit:顺带解决了行业一个大问题

Lingshu 配套开源了统一医疗评估框架 MedEvalKit

  • 整合16个主流医疗基准,15.2万条评估样本
  • 统一Prompt格式、数据预处理、后处理协议
  • "规则匹配+LLM-as-Judge"双重验证
  • 原生支持vLLM推理加速,高吞吐量并行评估

这个框架解决了医疗AI评测领域长期存在的"各家评各家、数字没有可比性"问题。以后做医疗多模态模型的,有了统一的评分标准。


六、局限性(说实话)

  1. 3D影像支持缺失:目前主要支持2D影像,CT/MRI体数据、病理全切片WSI支持不足
  2. RLVR仍处于早期:强化学习在医疗场景仅实现了边际提升,通用RL方法无法完全适配医疗场景的特殊奖励设计
  3. 距离临床落地还有距离:在复杂推理任务上仍逊于Gemini-2.5-Flash;更重要的是,进临床需要过监管和多中心验证两关,这不是论文指标能解决的
  4. 合成数据的潜在风险:130万条合成数据中存在少量潜在事实性错误

七、对行业的价值判断

技术层面:验证了"高质量数据治理 + 多阶段渐进训练"可以让7B模型比肩闭源大模型,大幅降低医疗AI研发和部署门槛。

生态层面:MedEvalKit统一了评测体系,对整个行业的规范化发展是实质性贡献。

落地层面:基层医院、中小企业可基于Lingshu本地部署,不再依赖昂贵的闭源API——这个意义是真实的,但还需要完成监管认证才能真正进入临床。


总结

Lingshu 是目前开源医疗多模态大模型里,技术路线最扎实、数据工程最完整、实验评估最可信 的一个。

如果你在做医疗AI相关研发,这是一个值得认真研究的baseline。

代码地址alibaba-damo-academy.github.io/lingshu/ 论文地址arxiv.org/abs/2506.07…


本文首发于公众号「波哥说一说」 更多医疗AI技术深度解析,关注回复「Lingshu」获取完整版

相关推荐: