一 医疗图像识别案例
1.1 什么是多模态模型?
多模态模型是一种能够处理和整合来自不同模态(如文本、图像、音频、视频等)数据的人工智能架构。它通过融合多种模态的信息,实现跨模态的理解、生成和推理,从而提供更丰富、全面的智能处理能力
1.2 医学领域有哪些多模态数据?
- 医学影像
- 临床文本数据
- 基因数据
- 代谢组数据
- 穿戴设备数据
- 实验室检测数据
- 医学信号数据
- 环境和生活方式数据
1.3 多模态模型-医疗行业落地需求梳理
1、诊断准确性
- 痛点:单一单一模态的数据可能不足以提供准确的诊断。
- 解决方案:结合多模态的数据提高诊断的准确性,减少误诊和漏诊。
2、个性化治疗
-
痛点:传统的“一刀切”治疗方法可能不适合所有患者
-
解决方案:多模态可以根据患者具体情况(基因信息,生活方式,病史等)提供个性化治疗方案 3、早期疾病检测
-
痛点:许多疾病在早期可能没有明显症状,导致诊断延迟。
-
解决方案:多模态模型可以分析早期疾病迹象,实现疾病的早期发现和干预。
4、跨学科协作
- 痛点:医疗决策往往需要不同专业领域的知识,但跨学科协作存在障碍。
- 解决方案:多模态模型促进了不同医学领域专家之间的信息共享和协作。
1.4 模型评测选型
| 模型名称 | 开发公司 | 适用场景 |
|---|---|---|
| 百度文心一言 | 百度公司 | 智能客服、内容推荐、图像识别等 |
| 字节豆包 | 字节跳动公司 | |
| 月之暗面Kimi | 月之暗面科技 | 输入支持20万汉字的智能助手 |
| 清华智谱AI | 清华大学团队 | |
| deepseek | 深度求索 | 大语言模型排行榜上排名靠前 |
| 阿里云通义千问 | 阿里云 | 智能问答、知识检索和文案创作等多模态场景 |
| 腾讯混元大模型 | 腾讯公司 | 智能监控、内容审核和视频生成等场景 |
| 百川智能 | 百川智能 | |
| 科大讯飞讯飞星火 | 科大讯飞 | 结合人形机器人的认知智能大模型 |
| 蚂蚁医疗大模型 | 蚂蚁AI健康管家 | MedBench榜单第一 |
| 京医千询 | 京东 | 处理放射影像等 |
| 医联MedGPT | 医联 | 基于医疗知识图谱为模型提供丰富、准确、结构化的医疗知识 |
1.5 案例分析
- 利用多模态大模型ocr能力读取化验单,并给出治疗建议
- 出诊断结果提示词
#要求:
- 识别图中各项检查项目和对应的结果和参考值。
- 根据识别出的内容,解读是否有异常项目。
- 根据解读的异常项进行分析患者出现的问题。
#输出要求:
- 输出识别出的图片内容,包括样本信息,检測项目,标本检测相关信息三部分全部内容,不要少输出数据,也不要部分识别,要求结构化输出。
- 根据识别出来的检测结果,参考范围和单位,如果存在数值或高或低,表示有异常项目,输出异常项。
- 如果有异常项请解读一下异常项对患者影响,推荐治疗方
- 评分提示词
你是Allen,是一个专业的医疗报告评估助手,能够依据特定规则对输入的医疗报告内容进行评分。默认初始100分,根据以下评分标准进行分数扣减。
##技能
###技能1:医疗报告评分
- 仔细检查输入内容中的检查项目名称,共26个,每少一个减1分。
- 查看初步诊断结果,检查血红蛋白、红细胞分布宽度和血小板压积三项指标,少一项减1分。
- 确认检验者是否为王晶,审核者是否为白涛,少一个减1分。
- 核实患者基本信息,包括性别(女)、年龄(8岁)、病历号(66881001440453)、送检医生(丁淑玉)、医院(保定市第二中心医院)、标本类型(全血)、送检科室(儿科综合门诊)、临床诊断(过敏性紫癜)、标本号(2025243068)、采样时间(2025-01-15 10:10:55),每少一项减1分。
- 检查是否能正常识别送检时间(2025-01-15 10:10:55)和报告时间(2025-01-15 10:39:41),少一项减1分。
- 查看治疗措施,若没有血红蛋白偏高相关的措施,减5分;没有血小板压积偏高相关的措施,减5分;没有红细胞分布宽度偏低的措施,减5分
- 根据上述各项规则,给出最终评分,按照:最 终评分 固定格式输出。
- 最终输出按照json格式{"'score":最终得分,"disc":扣分原因}
##限制
- 仅围绕医疗报告评估进行回答,不处理与医疗报告评估无关的问题。
- 输出必须按照规定的json格式{"score" 最终得分,"disc":扣分原因},不能偏离该框架要求。
二 音频转文字
一 技术实现背景
1.1 医疗问诊场景需求
1 提升诊疗效率
医生反馈痛点(上班时间分心或非工作时间写问诊记录,电子病历及其他文书性质的工作 )
语音识别助力医生快速记录病历,减少手写错误,提高接诊效率。
2 优化医患沟通
实时语音转文字,帮助医生准确理解患者描述,提升沟通质量。
- 规范医生问诊流程
- 例如提示痛疼的填槽(位置?是阵痛还是绞痛?)
- 客服方言
| 厂商技术 | 特点 | 应用案例 |
|---|---|---|
| NuanceDAX(Microsoft) | 基于GPT-4优化,自动生成结构化电子病历(EMR) | 梅奥诊所、约翰霍普金斯医院 |
| GoogleMed-PaLM2 | 基于PaLM 2,专攻医学问答与转录•支持语音转文本+临床决策支持(CDS) | 研究阶段,整合GoogleHealth EMR |
| AmazonTranscribeMedical | 支持实时转写,定制词汇表• 支持多语言(英语、西班牙语等) | 克利夫兰诊所远程会诊记录 |
| Suki Al | 专注临床语音助手,支持自然语言指令• 深度集成Epic、Cerner等EMR系统 | 美国多家私立医院、初级保健机构 |
二 技术实现难点
2.1 医疗专业术语
- 医疗术语多样,发音难度大,影响识别准确性
2.2 现场音频转文字挑战(现场环境嘈杂)
- 现场环境嘈杂,影响语音信号质量,增加转文字难度。
- 方言问题(潮汕,广东话等 )
2.3 高门槛技术要求
- 清楚分析出来,对话内容角色(医生,患者)
三 准确率优化方法
3.1 数据集的构建与优化
高质量数据收集
- 500小时医患对话
- 例如:我心口子疼,扯起扯起的(胸骨后,阵痛需方言训练)
预处理与扩展
- 数据预处理减少噪声,数据扩展增加多样性,优化数据集质量。
- 例如:苦恼,轻咳等降噪
数据标注
- 双盲标注:医生+语言学家(两拨人分别标注,然后通过仲裁后标注,以求严谨) 例如: 患者头疼 标注1: 头疼 标注2: 眩晕 裁定:头疼
3.2 知识库与专有名词库优化
医疗术语标准化:构建映射表
- 替换词:拉肚子|腹泻 验血|血液检测
- 热词:热词|权重数 头疼|9 发烧|8 咳嗽|7
热词用途例如:
患者:“我阿姨得了那种女性常见的恶性肿瘤,该怎么办?”
未经优化的模型回答(可能过于笼统甚至错误):
“您好,女性常见的恶性肿瘤有多种,如乳腺癌、宫颈癌、卵巢癌等。建议保持健康生活方式,及时就医检查。” (回答正确但过于宽泛,没有聚焦)
加入热词优化后的Prompt:
“如果您阿姨疑似患有乳腺癌,当前的标准流程是:首先通过乳腺钼靶(Mammography)和超声(Ultrasound)进行影像学诊断,疑似恶性需进行活检(Biopsy)病理确诊。确诊后的治疗方案通常是一个综合策略,包括手术(如保乳术或乳房切除术)、放疗(Radiotherapy)、化疗(Chemotherapy)、内分泌治疗(Endocrine therapy)和靶向治疗(Targeted therapy)等...预后取决于癌症的分期、分子分型等因素,早期发现五年生存率很高...”
当前热词:乳腺癌、宫颈癌、卵巢癌等
热词优化:加入热词的治疗方案
ps:数据标注(Data Annotation)
- 是指为原始数据(如文本、图片、音频、视频等)添加标签、注释或元数据的过程,目的是让机器能够理解和学习这些数据。
- 例如: 电影拍的让人看不懂 (情感标注:负面)