大模型30/31 医疗图像识别案例/音频转文字一医疗图像识别案例 1.1 什么是多模态模型？多模态模型是一种能够处理

一医疗图像识别案例

1.1 什么是多模态模型？

多模态模型是一种能够处理和整合来自不同模态（如文本、图像、音频、视频等）数据的人工智能架构。它通过融合多种模态的信息，实现跨模态的理解、生成和推理，从而提供更丰富、全面的智能处理能力

1.2 医学领域有哪些多模态数据？

医学影像
临床文本数据
基因数据
代谢组数据
穿戴设备数据
实验室检测数据
医学信号数据
环境和生活方式数据

1.3 多模态模型-医疗行业落地需求梳理

1、诊断准确性

痛点：单一单一模态的数据可能不足以提供准确的诊断。
解决方案：结合多模态的数据提高诊断的准确性，减少误诊和漏诊。

2、个性化治疗

痛点：传统的“一刀切”治疗方法可能不适合所有患者
解决方案：多模态可以根据患者具体情况（基因信息，生活方式，病史等）提供个性化治疗方案 3、早期疾病检测
痛点：许多疾病在早期可能没有明显症状，导致诊断延迟。
解决方案：多模态模型可以分析早期疾病迹象，实现疾病的早期发现和干预。

4、跨学科协作

痛点：医疗决策往往需要不同专业领域的知识，但跨学科协作存在障碍。
解决方案：多模态模型促进了不同医学领域专家之间的信息共享和协作。

1.4 模型评测选型

模型名称	开发公司	适用场景
百度文心一言	百度公司	智能客服、内容推荐、图像识别等
字节豆包	字节跳动公司
月之暗面Kimi	月之暗面科技	输入支持20万汉字的智能助手
清华智谱AI	清华大学团队
deepseek	深度求索	大语言模型排行榜上排名靠前
阿里云通义千问	阿里云	智能问答、知识检索和文案创作等多模态场景
腾讯混元大模型	腾讯公司	智能监控、内容审核和视频生成等场景
百川智能	百川智能
科大讯飞讯飞星火	科大讯飞	结合人形机器人的认知智能大模型
蚂蚁医疗大模型	蚂蚁AI健康管家	MedBench榜单第一
京医千询	京东	处理放射影像等
医联MedGPT	医联	基于医疗知识图谱为模型提供丰富、准确、结构化的医疗知识

1.5 案例分析

利用多模态大模型ocr能力读取化验单，并给出治疗建议

截屏2025-08-21 13.13.05.png

出诊断结果提示词

#要求：

识别图中各项检查项目和对应的结果和参考值。

根据识别出的内容，解读是否有异常项目。

根据解读的异常项进行分析患者出现的问题。

#输出要求：

输出识别出的图片内容，包括样本信息，检測项目，标本检测相关信息三部分全部内容，不要少输出数据，也不要部分识别，要求结构化输出。

根据识别出来的检测结果，参考范围和单位，如果存在数值或高或低，表示有异常项目，输出异常项。

如果有异常项请解读一下异常项对患者影响，推荐治疗方

评分提示词

你是Allen，是一个专业的医疗报告评估助手，能够依据特定规则对输入的医疗报告内容进行评分。默认初始100分，根据以下评分标准进行分数扣减。

#＃技能

###技能1：医疗报告评分

仔细检查输入内容中的检查项目名称，共26个，每少一个减1分。

查看初步诊断结果，检查血红蛋白、红细胞分布宽度和血小板压积三项指标，少一项减1分。

确认检验者是否为王晶，审核者是否为白涛，少一个减1分。

核实患者基本信息，包括性别（女）、年龄（8岁）、病历号（66881001440453）、送检医生（丁淑玉）、医院（保定市第二中心医院）、标本类型（全血）、送检科室（儿科综合门诊）、临床诊断（过敏性紫癜）、标本号（2025243068）、采样时间（2025-01-15 10:10:55），每少一项减1分。

检查是否能正常识别送检时间（2025-01-15 10:10:55）和报告时间（2025-01-15 10:39:41），少一项减1分。

查看治疗措施，若没有血红蛋白偏高相关的措施，减5分；没有血小板压积偏高相关的措施，减5分；没有红细胞分布宽度偏低的措施，减5分

根据上述各项规则，给出最终评分，按照：最终评分固定格式输出。

最终输出按照json格式｛"'score"：最终得分，"disc"：扣分原因｝

##限制

仅围绕医疗报告评估进行回答，不处理与医疗报告评估无关的问题。

输出必须按照规定的json格式｛"score" 最终得分，"disc"：扣分原因｝，不能偏离该框架要求。

二音频转文字

一技术实现背景

1.1 医疗问诊场景需求

1 提升诊疗效率

医生反馈痛点（上班时间分心或非工作时间写问诊记录，电子病历及其他文书性质的工作 ）

语音识别助力医生快速记录病历，减少手写错误，提高接诊效率。

2 优化医患沟通

实时语音转文字，帮助医生准确理解患者描述，提升沟通质量。

规范医生问诊流程
例如提示痛疼的填槽（位置？是阵痛还是绞痛？）
客服方言

厂商技术	特点	应用案例
NuanceDAX(Microsoft)	基于GPT-4优化，自动生成结构化电子病历（EMR）	梅奥诊所、约翰霍普金斯医院
GoogleMed-PaLM2	基于PaLM 2，专攻医学问答与转录•支持语音转文本+临床决策支持(CDS)	研究阶段，整合GoogleHealth EMR
AmazonTranscribeMedical	支持实时转写，定制词汇表• 支持多语言（英语、西班牙语等）	克利夫兰诊所远程会诊记录
Suki Al	专注临床语音助手，支持自然语言指令• 深度集成Epic、Cerner等EMR系统	美国多家私立医院、初级保健机构

二技术实现难点

2.1 医疗专业术语

医疗术语多样，发音难度大，影响识别准确性

截屏2025-08-21 14.06.14.png

2.2 现场音频转文字挑战（现场环境嘈杂）

现场环境嘈杂，影响语音信号质量，增加转文字难度。
方言问题（潮汕，广东话等）

2.3 高门槛技术要求

清楚分析出来，对话内容角色（医生，患者）

截屏2025-08-21 14.11.47.png

三准确率优化方法

3.1 数据集的构建与优化

高质量数据收集

500小时医患对话
例如：我心口子疼，扯起扯起的（胸骨后，阵痛需方言训练）

预处理与扩展

数据预处理减少噪声，数据扩展增加多样性，优化数据集质量。
例如：苦恼，轻咳等降噪

数据标注

双盲标注：医生＋语言学家（两拨人分别标注，然后通过仲裁后标注，以求严谨）例如：患者头疼标注1：头疼标注2：眩晕裁定：头疼

3.2 知识库与专有名词库优化

医疗术语标准化：构建映射表

替换词：拉肚子|腹泻验血|血液检测
热词：热词|权重数头疼|9 发烧|8 咳嗽|7

热词用途 例如：

患者：“我阿姨得了那种女性常见的恶性肿瘤，该怎么办？”

未经优化的模型回答（可能过于笼统甚至错误）：

“您好，女性常见的恶性肿瘤有多种，如乳腺癌、宫颈癌、卵巢癌等。建议保持健康生活方式，及时就医检查。” （回答正确但过于宽泛，没有聚焦）

加入热词优化后的Prompt：

“如果您阿姨疑似患有乳腺癌，当前的标准流程是：首先通过乳腺钼靶（Mammography）和超声（Ultrasound）进行影像学诊断，疑似恶性需进行活检（Biopsy）病理确诊。确诊后的治疗方案通常是一个综合策略，包括手术（如保乳术或乳房切除术）、放疗（Radiotherapy）、化疗（Chemotherapy）、内分泌治疗（Endocrine therapy）和靶向治疗（Targeted therapy）等...预后取决于癌症的分期、分子分型等因素，早期发现五年生存率很高...”

当前热词：乳腺癌、宫颈癌、卵巢癌等

热词优化：加入热词的治疗方案

ps：数据标注（Data Annotation）

是指为原始数据（如文本、图片、音频、视频等）添加标签、注释或元数据的过程，目的是让机器能够理解和学习这些数据。
例如：电影拍的让人看不懂（情感标注：负面）

大模型30/31 医疗图像识别案例/音频转文字

一 医疗图像识别案例

二 音频转文字

一 技术实现背景

1.1 医疗问诊场景需求

二 技术实现难点

三 准确率优化方法

一医疗图像识别案例

二音频转文字

一技术实现背景

二技术实现难点

三准确率优化方法