大模型30/31 医疗图像识别案例/音频转文字

99 阅读8分钟

一 医疗图像识别案例

1.1 什么是多模态模型?

多模态模型是一种能够处理和整合来自不同模态(如文本、图像、音频、视频等)数据的人工智能架构。它通过融合多种模态的信息,实现跨模态的理解、生成和推理,从而提供更丰富、全面的智能处理能力

1.2 医学领域有哪些多模态数据?

  • 医学影像
  • 临床文本数据
  • 基因数据
  • 代谢组数据
  • 穿戴设备数据
  • 实验室检测数据
  • 医学信号数据
  • 环境和生活方式数据

1.3 多模态模型-医疗行业落地需求梳理

1、诊断准确性

  • 痛点:单一单一模态的数据可能不足以提供准确的诊断。
  • 解决方案:结合多模态的数据提高诊断的准确性,减少误诊和漏诊。

2、个性化治疗

  • 痛点:传统的“一刀切”治疗方法可能不适合所有患者

  • 解决方案:多模态可以根据患者具体情况(基因信息,生活方式,病史等)提供个性化治疗方案 3、早期疾病检测

  • 痛点:许多疾病在早期可能没有明显症状,导致诊断延迟。

  • 解决方案:多模态模型可以分析早期疾病迹象,实现疾病的早期发现和干预。

4、跨学科协作

  • 痛点:医疗决策往往需要不同专业领域的知识,但跨学科协作存在障碍。
  • 解决方案:多模态模型促进了不同医学领域专家之间的信息共享和协作。

1.4 模型评测选型

模型名称开发公司适用场景
百度文心一言百度公司智能客服、内容推荐、图像识别等
字节豆包字节跳动公司
月之暗面Kimi月之暗面科技输入支持20万汉字的智能助手
清华智谱AI清华大学团队
deepseek深度求索大语言模型排行榜上排名靠前
阿里云通义千问阿里云智能问答、知识检索和文案创作等多模态场景
腾讯混元大模型腾讯公司智能监控、内容审核和视频生成等场景
百川智能百川智能
科大讯飞讯飞星火科大讯飞结合人形机器人的认知智能大模型
蚂蚁医疗大模型蚂蚁AI健康管家MedBench榜单第一
京医千询京东处理放射影像等
医联MedGPT医联基于医疗知识图谱为模型提供丰富、准确、结构化的医疗知识

1.5 案例分析

  • 利用多模态大模型ocr能力读取化验单,并给出治疗建议

截屏2025-08-21 13.13.05.png

  • 出诊断结果提示词

#要求:

  1. 识别图中各项检查项目和对应的结果和参考值。
  2. 根据识别出的内容,解读是否有异常项目。
  3. 根据解读的异常项进行分析患者出现的问题。

#输出要求:

  1. 输出识别出的图片内容,包括样本信息,检測项目,标本检测相关信息三部分全部内容,不要少输出数据,也不要部分识别,要求结构化输出。
  2. 根据识别出来的检测结果,参考范围和单位,如果存在数值或高或低,表示有异常项目,输出异常项。
  3. 如果有异常项请解读一下异常项对患者影响,推荐治疗方
  • 评分提示词

你是Allen,是一个专业的医疗报告评估助手,能够依据特定规则对输入的医疗报告内容进行评分。默认初始100分,根据以下评分标准进行分数扣减。

##技能

###技能1:医疗报告评分

  1. 仔细检查输入内容中的检查项目名称,共26个,每少一个减1分。
  2. 查看初步诊断结果,检查血红蛋白、红细胞分布宽度和血小板压积三项指标,少一项减1分。
  3. 确认检验者是否为王晶,审核者是否为白涛,少一个减1分。
  4. 核实患者基本信息,包括性别(女)、年龄(8岁)、病历号(66881001440453)、送检医生(丁淑玉)、医院(保定市第二中心医院)、标本类型(全血)、送检科室(儿科综合门诊)、临床诊断(过敏性紫癜)、标本号(2025243068)、采样时间(2025-01-15 10:10:55),每少一项减1分。
  5. 检查是否能正常识别送检时间(2025-01-15 10:10:55)和报告时间(2025-01-15 10:39:41),少一项减1分。
  6. 查看治疗措施,若没有血红蛋白偏高相关的措施,减5分;没有血小板压积偏高相关的措施,减5分;没有红细胞分布宽度偏低的措施,减5分
  7. 根据上述各项规则,给出最终评分,按照:最 终评分 固定格式输出。
  8. 最终输出按照json格式{"'score":最终得分,"disc":扣分原因}

##限制

  • 仅围绕医疗报告评估进行回答,不处理与医疗报告评估无关的问题。
  • 输出必须按照规定的json格式{"score" 最终得分,"disc":扣分原因},不能偏离该框架要求。

二 音频转文字

一 技术实现背景

1.1 医疗问诊场景需求

1 提升诊疗效率

医生反馈痛点(上班时间分心或非工作时间写问诊记录,电子病历及其他文书性质的工作

语音识别助力医生快速记录病历,减少手写错误,提高接诊效率。

2 优化医患沟通

实时语音转文字,帮助医生准确理解患者描述,提升沟通质量。

  • 规范医生问诊流程
  • 例如提示痛疼的填槽(位置?是阵痛还是绞痛?)
  • 客服方言
厂商技术特点应用案例
NuanceDAX(Microsoft)基于GPT-4优化,自动生成结构化电子病历(EMR)梅奥诊所、约翰霍普金斯医院
GoogleMed-PaLM2基于PaLM 2,专攻医学问答与转录•支持语音转文本+临床决策支持(CDS)研究阶段,整合GoogleHealth EMR
AmazonTranscribeMedical支持实时转写,定制词汇表• 支持多语言(英语、西班牙语等)克利夫兰诊所远程会诊记录
Suki Al专注临床语音助手,支持自然语言指令• 深度集成Epic、Cerner等EMR系统美国多家私立医院、初级保健机构

二 技术实现难点

2.1 医疗专业术语

  • 医疗术语多样,发音难度大,影响识别准确性

截屏2025-08-21 14.06.14.png

2.2 现场音频转文字挑战(现场环境嘈杂)

  • 现场环境嘈杂,影响语音信号质量,增加转文字难度。
  • 方言问题(潮汕,广东话等 )

2.3 高门槛技术要求

  • 清楚分析出来,对话内容角色(医生,患者)

截屏2025-08-21 14.11.47.png

三 准确率优化方法

3.1 数据集的构建与优化

高质量数据收集

  • 500小时医患对话
  • 例如:我心口子疼,扯起扯起的(胸骨后,阵痛需方言训练)

预处理与扩展

  • 数据预处理减少噪声,数据扩展增加多样性,优化数据集质量。
  • 例如:苦恼,轻咳等降噪

数据标注

  • 双盲标注:医生+语言学家(两拨人分别标注,然后通过仲裁后标注,以求严谨) 例如: 患者头疼 标注1: 头疼 标注2: 眩晕 裁定:头疼

3.2 知识库与专有名词库优化

医疗术语标准化:构建映射表

  • 替换词:拉肚子|腹泻 验血|血液检测
  • 热词:热词|权重数 头疼|9 发烧|8 咳嗽|7

热词用途 例如:

  • 患者:“我阿姨得了那种女性常见的恶性肿瘤,该怎么办?”

  • 未经优化的模型回答(可能过于笼统甚至错误):

  • “您好,女性常见的恶性肿瘤有多种,如乳腺癌、宫颈癌、卵巢癌等。建议保持健康生活方式,及时就医检查。” (回答正确但过于宽泛,没有聚焦)

  • 加入热词优化后的Prompt

  • “如果您阿姨疑似患有乳腺癌,当前的标准流程是:首先通过乳腺钼靶(Mammography)和超声(Ultrasound)进行影像学诊断,疑似恶性需进行活检(Biopsy)病理确诊。确诊后的治疗方案通常是一个综合策略,包括手术(如保乳术或乳房切除术)、放疗(Radiotherapy)、化疗(Chemotherapy)、内分泌治疗(Endocrine therapy)和靶向治疗(Targeted therapy)等...预后取决于癌症的分期、分子分型等因素,早期发现五年生存率很高...”

当前热词:乳腺癌、宫颈癌、卵巢癌等

热词优化:加入热词的治疗方案

ps数据标注(Data Annotation)  

  • 是指为原始数据(如文本、图片、音频、视频等)添加标签、注释或元数据的过程,目的是让机器能够理解和学习这些数据。
  • 例如: 电影拍的让人看不懂 (情感标注:负面)