本文首发于公众号「波哥说一说」,关注获取更多医疗AI技术深度解析。
引言:医疗AI的长期痛点
做过医疗AI的人都知道,这个场景有三个几乎绕不过去的硬伤:
① 医疗知识覆盖太窄——大多数模型只会做"影像+报告"的基础配对,药理、临床路径、公卫等维度几乎空白。
② 幻觉风险居高不下——医疗数据标注质量参差不齐,模型动不动"一本正经地胡说",在诊断场景这是致命的。
③ 缺乏复杂推理能力——能答"这是什么病",但答不出"为什么是这个病、下一步该怎么处理"。
2025年6月,阿里巴巴达摩院LASA团队在arXiv上发布了 Lingshu(灵枢) ,声称在16个主流医疗基准上实现开源SOTA,32B版本部分指标超越GPT-4.1。
这是真实的技术突破,还是通常意义上的"论文表演"?拆开来看一下。
一、Lingshu的核心架构
Lingshu 基于通义千问开源的 Qwen2.5-VL 底座,提供两个参数版本:
- Lingshu-7B(基于 Qwen2.5-VL-7B-Instruct)
- Lingshu-32B(基于 Qwen2.5-VL-32B-Instruct)
完整保留了视觉编码器 + LLM主干 + MLP投影层三大组件,没有额外引入架构改动——核心创新全部集中在数据工程和训练范式上。
这个选择本身就说明了一个判断:在医疗垂直领域,数据质量>模型架构。
二、最重要的创新:505万条医疗数据的治理流水线
这是Lingshu最核心的技术贡献,也是最容易被忽视的部分。
2.1 数据规模
最终构建了 505万条 高质量医疗训练语料,覆盖 12种医学影像模态:X光、CT、MRI、超声、病理切片、皮肤镜、眼底、OCT、内镜、PET等。
数据来源分四类:
| 类型 | 内容 | 代表来源 |
|---|---|---|
| 多模态医疗数据 | 医疗图文对标注+指令微调 | LLaVA-Med、PubMedVision、MIMIC-CXR |
| 单模态医疗文本 | 医疗QA + 临床推理蒸馏 | MedQA、HuatuoGPT |
| 单模态医疗影像 | 12种模态原始影像+人工标注 | 原始影像数据集 |
| 通用域数据 | 通用图文+指令跟随 | 通用数据集 |
2.2 数据清洗的关键细节
影像层:过滤分辨率低于64×64的低质量图片;感知哈希算法零阈值去重(保证没有重复样本)。
文本层:大模型合规性清洗医患对话数据,删隐私信息、修正违规诊断建议、补充医疗免责声明。
全量层:MinHash局部敏感哈希算法文本去重,严格剔除与评估基准重叠的数据——这一步直接决定了评测结果的可信度。
2.3 高质量合成数据:130万条
在原始数据基础上,额外合成了130万条高质量样本:
| 合成类型 | 数量 | 核心方法 |
|---|---|---|
| 长文本影像描述 | 10万条 | 五阶段流水线,基于GPT-4o生成 |
| OCR指令数据 | 5万条 | 覆盖医学考试题目,大模型生成推理步骤 |
| 医疗VQA样本 | 50.4万条 | 模板化+自指令双策略 |
| 医疗推理轨迹蒸馏 | 14.6万条 | GPT-4o生成CoT推理,仅保留答案完全一致的样本 |
三、四阶段渐进式训练范式
训练分四个阶段,每一步解决一个具体问题:
| 阶段 | 目标 | 关键设置 | 数据量 |
|---|---|---|---|
| 阶段一:医疗浅度对齐 | 建立图文基础语义对齐 | 冻结LLM,只训练视觉编码器+MLP,1 epoch | 92.7万条 |
| 阶段二:医疗深度对齐 | 深度注入医疗知识 | 全参数解冻,端到端微调,1 epoch | 410万条 |
| 阶段三:医疗指令微调 | 提升指令跟随能力 | 全参数微调+数据打包技术,2 epoch | 710万条 |
| 阶段四:医疗导向强化学习 | 增强多模态推理能力 | GRPO算法RLVR,1 epoch | 10万条 |
这个设计最聪明的地方:
- 阶段一冻结LLM——避免粗粒度数据损伤语言能力
- 阶段二加入通用域数据——防止过度垂直化丧失泛化能力
- 阶段四是首次将RLVR范式应用于医疗多模态模型,这是真正的技术创新点
四、实验结果:数字是否经得起推敲?
多模态医疗QA(核心)
| 模型 | 平均准确率 | 类型 |
|---|---|---|
| Lingshu-32B | 66.6 | 开源 ✅ |
| Gemini-2.5-Flash | 65.1 | 闭源 |
| GPT-4.1 | 63.4 | 闭源 |
| Claude Sonnet 4 | 61.5 | 闭源 |
| Lingshu-7B | 61.8 | 开源 ✅ |
| InternVL3-8B | 57.3 | 开源 |
Lingshu-32B 在 SLAKE、PathVQA、OmniMedVQA 等多个单基准上登顶全球第一。
Lingshu-7B 领先第二名InternVL3-8B 4.5个百分点,用7B参数打出了和GPT-4.1相当的成绩。
关键可信度验证
评测数据集去重做了 MinHash 严格过滤,评估框架用的是 MedEvalKit(同步开源),评测过程可复现——这比很多只放 cherry-picked 结果的论文要诚实得多。
五、MedEvalKit:顺带解决了行业一个大问题
Lingshu 配套开源了统一医疗评估框架 MedEvalKit:
- 整合16个主流医疗基准,15.2万条评估样本
- 统一Prompt格式、数据预处理、后处理协议
- "规则匹配+LLM-as-Judge"双重验证
- 原生支持vLLM推理加速,高吞吐量并行评估
这个框架解决了医疗AI评测领域长期存在的"各家评各家、数字没有可比性"问题。以后做医疗多模态模型的,有了统一的评分标准。
六、局限性(说实话)
- 3D影像支持缺失:目前主要支持2D影像,CT/MRI体数据、病理全切片WSI支持不足
- RLVR仍处于早期:强化学习在医疗场景仅实现了边际提升,通用RL方法无法完全适配医疗场景的特殊奖励设计
- 距离临床落地还有距离:在复杂推理任务上仍逊于Gemini-2.5-Flash;更重要的是,进临床需要过监管和多中心验证两关,这不是论文指标能解决的
- 合成数据的潜在风险:130万条合成数据中存在少量潜在事实性错误
七、对行业的价值判断
技术层面:验证了"高质量数据治理 + 多阶段渐进训练"可以让7B模型比肩闭源大模型,大幅降低医疗AI研发和部署门槛。
生态层面:MedEvalKit统一了评测体系,对整个行业的规范化发展是实质性贡献。
落地层面:基层医院、中小企业可基于Lingshu本地部署,不再依赖昂贵的闭源API——这个意义是真实的,但还需要完成监管认证才能真正进入临床。
总结
Lingshu 是目前开源医疗多模态大模型里,技术路线最扎实、数据工程最完整、实验评估最可信 的一个。
如果你在做医疗AI相关研发,这是一个值得认真研究的baseline。
代码地址:alibaba-damo-academy.github.io/lingshu/ 论文地址:arxiv.org/abs/2506.07…
本文首发于公众号「波哥说一说」 更多医疗AI技术深度解析,关注回复「Lingshu」获取完整版
相关推荐: