HealthBench：首个面向医疗大模型的开源评估基准来了OpenAI 最近发布了一个医疗 AI 领域的重要成果：He

OpenAI 最近发布了一个医疗 AI 领域的重要成果：HealthBench。它是一个专门用于评估医疗大模型性能和安全性的开源基准，由来自全球 60 个国家的 262 位医生参与设计，覆盖 5000 个真实多轮问诊案例，并设置了超过 4.8 万个评估维度。

不同于传统 NLP 基准，HealthBench 更强调医疗语境下的专业性、风险控制、沟通能力、指令理解等关键能力。它为医疗类 LLM 的 fine-tuning、alignment 提供了高质量的评估资源。

这一工具的出现，或将成为医疗 AI 产品落地过程中的“合格证”。

👉 适用场景：医疗对话系统、AI 辅助诊断、健康咨询类应用评估与优化

步骤：

1-扩展程序飞书剪存存文档到飞书，飞书导出word文档

2-基于博主@歸藏的AI工具箱的提示词+cluade 3.7输出了下面的这份HTML

微信截图_20250515111731.png 微信截图_20250515111809.png 微信截图_20250515112341.png

微信截图_20250515112222.png