HealthBench:首个面向医疗大模型的开源评估基准来了

288 阅读1分钟

OpenAI 最近发布了一个医疗 AI 领域的重要成果:HealthBench。它是一个专门用于评估医疗大模型性能和安全性的开源基准,由来自全球 60 个国家的 262 位医生参与设计,覆盖 5000 个真实多轮问诊案例,并设置了超过 4.8 万个评估维度。

不同于传统 NLP 基准,HealthBench 更强调医疗语境下的专业性、风险控制、沟通能力、指令理解等关键能力。它为医疗类 LLM 的 fine-tuning、alignment 提供了高质量的评估资源。

这一工具的出现,或将成为医疗 AI 产品落地过程中的“合格证”。

👉 项目地址:openai.com/index/healt…

👉 适用场景:医疗对话系统、AI 辅助诊断、健康咨询类应用评估与优化

步骤:

1-扩展程序飞书剪存存文档到飞书,飞书导出word文档

2-基于博主@歸藏的AI工具箱 的提示词+cluade 3.7输出了下面的这份HTML

微信截图_20250515111731.png 微信截图_20250515111809.png 微信截图_20250515112341.png

微信截图_20250515112222.png