深度解析阿里达摩院Lingshu：7B开源医疗模型，如何在16个基准上超越GPT-4.1？2025年6月，阿里巴巴达摩院

本文首发于公众号「波哥说一说」，关注获取更多医疗AI技术深度解析。

引言：医疗AI的长期痛点

做过医疗AI的人都知道，这个场景有三个几乎绕不过去的硬伤：

① 医疗知识覆盖太窄——大多数模型只会做"影像+报告"的基础配对，药理、临床路径、公卫等维度几乎空白。

② 幻觉风险居高不下——医疗数据标注质量参差不齐，模型动不动"一本正经地胡说"，在诊断场景这是致命的。

③ 缺乏复杂推理能力——能答"这是什么病"，但答不出"为什么是这个病、下一步该怎么处理"。

2025年6月，阿里巴巴达摩院LASA团队在arXiv上发布了 Lingshu（灵枢） ，声称在16个主流医疗基准上实现开源SOTA，32B版本部分指标超越GPT-4.1。

这是真实的技术突破，还是通常意义上的"论文表演"？拆开来看一下。

一、Lingshu的核心架构

Lingshu 基于通义千问开源的 Qwen2.5-VL 底座，提供两个参数版本：

Lingshu-7B（基于 Qwen2.5-VL-7B-Instruct）
Lingshu-32B（基于 Qwen2.5-VL-32B-Instruct）

完整保留了视觉编码器 + LLM主干 + MLP投影层三大组件，没有额外引入架构改动——核心创新全部集中在数据工程和训练范式上。

这个选择本身就说明了一个判断：在医疗垂直领域，数据质量>模型架构。

二、最重要的创新：505万条医疗数据的治理流水线

这是Lingshu最核心的技术贡献，也是最容易被忽视的部分。

2.1 数据规模

最终构建了 505万条 高质量医疗训练语料，覆盖 12种医学影像模态：X光、CT、MRI、超声、病理切片、皮肤镜、眼底、OCT、内镜、PET等。

数据来源分四类：

类型	内容	代表来源
多模态医疗数据	医疗图文对标注+指令微调	LLaVA-Med、PubMedVision、MIMIC-CXR
单模态医疗文本	医疗QA + 临床推理蒸馏	MedQA、HuatuoGPT
单模态医疗影像	12种模态原始影像+人工标注	原始影像数据集
通用域数据	通用图文+指令跟随	通用数据集

2.2 数据清洗的关键细节

影像层：过滤分辨率低于64×64的低质量图片；感知哈希算法零阈值去重（保证没有重复样本）。

文本层：大模型合规性清洗医患对话数据，删隐私信息、修正违规诊断建议、补充医疗免责声明。

全量层：MinHash局部敏感哈希算法文本去重，严格剔除与评估基准重叠的数据——这一步直接决定了评测结果的可信度。

2.3 高质量合成数据：130万条

在原始数据基础上，额外合成了130万条高质量样本：

合成类型	数量	核心方法
长文本影像描述	10万条	五阶段流水线，基于GPT-4o生成
OCR指令数据	5万条	覆盖医学考试题目，大模型生成推理步骤
医疗VQA样本	50.4万条	模板化+自指令双策略
医疗推理轨迹蒸馏	14.6万条	GPT-4o生成CoT推理，仅保留答案完全一致的样本

三、四阶段渐进式训练范式

训练分四个阶段，每一步解决一个具体问题：

阶段	目标	关键设置	数据量
阶段一：医疗浅度对齐	建立图文基础语义对齐	冻结LLM，只训练视觉编码器+MLP，1 epoch	92.7万条
阶段二：医疗深度对齐	深度注入医疗知识	全参数解冻，端到端微调，1 epoch	410万条
阶段三：医疗指令微调	提升指令跟随能力	全参数微调+数据打包技术，2 epoch	710万条
阶段四：医疗导向强化学习	增强多模态推理能力	GRPO算法RLVR，1 epoch	10万条

这个设计最聪明的地方：

阶段一冻结LLM——避免粗粒度数据损伤语言能力
阶段二加入通用域数据——防止过度垂直化丧失泛化能力
阶段四是首次将RLVR范式应用于医疗多模态模型，这是真正的技术创新点

四、实验结果：数字是否经得起推敲？

多模态医疗QA（核心）

模型	平均准确率	类型
Lingshu-32B	66.6	开源 ✅
Gemini-2.5-Flash	65.1	闭源
GPT-4.1	63.4	闭源
Claude Sonnet 4	61.5	闭源
Lingshu-7B	61.8	开源 ✅
InternVL3-8B	57.3	开源

Lingshu-32B 在 SLAKE、PathVQA、OmniMedVQA 等多个单基准上登顶全球第一。

Lingshu-7B 领先第二名InternVL3-8B 4.5个百分点，用7B参数打出了和GPT-4.1相当的成绩。

关键可信度验证

评测数据集去重做了 MinHash 严格过滤，评估框架用的是 MedEvalKit（同步开源），评测过程可复现——这比很多只放 cherry-picked 结果的论文要诚实得多。

五、MedEvalKit：顺带解决了行业一个大问题

Lingshu 配套开源了统一医疗评估框架 MedEvalKit：

整合16个主流医疗基准，15.2万条评估样本
统一Prompt格式、数据预处理、后处理协议
"规则匹配+LLM-as-Judge"双重验证
原生支持vLLM推理加速，高吞吐量并行评估

这个框架解决了医疗AI评测领域长期存在的"各家评各家、数字没有可比性"问题。以后做医疗多模态模型的，有了统一的评分标准。

六、局限性（说实话）

3D影像支持缺失：目前主要支持2D影像，CT/MRI体数据、病理全切片WSI支持不足
RLVR仍处于早期：强化学习在医疗场景仅实现了边际提升，通用RL方法无法完全适配医疗场景的特殊奖励设计
距离临床落地还有距离：在复杂推理任务上仍逊于Gemini-2.5-Flash；更重要的是，进临床需要过监管和多中心验证两关，这不是论文指标能解决的
合成数据的潜在风险：130万条合成数据中存在少量潜在事实性错误

七、对行业的价值判断

技术层面：验证了"高质量数据治理 + 多阶段渐进训练"可以让7B模型比肩闭源大模型，大幅降低医疗AI研发和部署门槛。

生态层面：MedEvalKit统一了评测体系，对整个行业的规范化发展是实质性贡献。

落地层面：基层医院、中小企业可基于Lingshu本地部署，不再依赖昂贵的闭源API——这个意义是真实的，但还需要完成监管认证才能真正进入临床。

总结

Lingshu 是目前开源医疗多模态大模型里，技术路线最扎实、数据工程最完整、实验评估最可信 的一个。

如果你在做医疗AI相关研发，这是一个值得认真研究的baseline。

代码地址：alibaba-damo-academy.github.io/lingshu/ 论文地址：arxiv.org/abs/2506.07…

本文首发于公众号「波哥说一说」更多医疗AI技术深度解析，关注回复「Lingshu」获取完整版

相关推荐：

CHIMA 2026三天全复盘：医疗AI Agent狂飙，信息中心正在被消失

Nature顶刊！达摩院PANDA胰腺癌AI：平扫CT揪出癌王