2024 最新 中医 医疗数据集(10/7已更新)

276 阅读8分钟

中医啊,是我们老祖宗传下来的宝贝,有着好几千年的历史呢。它不仅温和,而且全面,还能针对每个人的不同情况进行调整,就像给你量身定做的“健康计划”一样。

首先,中医讲究一个整体,人和自然要和谐相处。然后是阴阳五行,这个概念就像是白天和黑夜,或者五种不同的乐器,它们要相互配合,才能演奏出美妙的音乐。

再说说中医的脏腑经络理论,这就像是我们身体的“发动机”和连接它们的“电线”,气血就是通过这些“电线”流动的“电流”。中医的诊断方法也很特别,望闻问切,就是通过观察你的脸色、听你的声音、问你的问题,甚至摸你的脉搏来找出身体里的不平衡。

治疗方法嘛,那就更丰富了,草药、针灸、推拿、艾灸、拔罐等等,都是帮助身体恢复平衡的好方法。而且,中医用的都是天然的草药、动物和矿物制成的药物,功效多样,可以治疗各种疾病。

最后,中医还特别强调预防,认为预防胜于治疗。它会教我们怎么通过合理饮食、适当运动和保持良好的心态来预防疾病。

所以,中医不仅仅是治病,更是一种生活的艺术,帮助我们在身体和心理上达到更好的健康状态。

数据集:Traditional-Chinese-Medicine-Dataset-SFT|中医数据集|自然语言处理数据集

  • 创建时间:2024-10-02

  • 链接地址:Traditional-Chinese-Medicine-Dataset-SFT|中医数据集|自然语言处理数据集

  • 数据集介绍:该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

添加图片注释,不超过 140 字(可选)

一、HBot 基于人体三维可视化的中医医疗应用聊天机器人

当前困难和挑战: 在咨询过程中准确传达穴位和经络等复杂概念的挑战,以及中医在管理老年人慢性疾病中的重要性。

TCM-KG 数据集 和 基于中医书籍标准的一个高质量的文档级实体关系抽取数据集。

在2024-08-01 由哈尔并工业大学 和中国科学院 发布 。

TCM-KG数据集通过从国家名中医学术经验服务平台爬取文档,并使用实体关系抽取模型提取三元组构建而成。TCM-KG的大小从37851个三元组增长到48633个三元组。

基于中医书籍标准的一个高质量的文档级实体关系抽取数据集: 包含270个文档、5996个实体和4685个关系。

中医独特的诊断治疗技术和显著的临床疗效使其在老年护理和医疗领域发挥着重要作用,尤其是在老年人常见慢性病的康复方面。

因此,构建一个用于医疗应用的 TCM 聊天机器人将帮助用户以直接自然的方式获得咨询服务。然而,中医中涉及的穴位和经络等概念总是出现在咨询中,无法直观地显示。为此,我们开发了一个基于 3D 人体模型和知识图谱的医疗聊天机器人 (HBot),它提供知识问答、处方推荐、艾灸疗法推荐和穴位搜索等对话服务。当用户与 HBot 的对话中涉及特定穴位时,3D 人体模型将跳转到相应的穴位并将其高亮显示。此外,Hbot 还可用于培训场景,通过直观地显示穴位和知识卡片来加速中医教学过程

添加图片注释,不超过 140 字(可选)

数据集2:ISPO 中医症状表型集成本体

中医症状术语统一

目前遇到问题和挑战:

症状表型是诊断和治疗各种疾病的关键表现形式之一。然而,症状术语的多样性是阻碍各种症状相关医学数据分析和知识共享的主要障碍之一,尤其是在中医领域。

ISPO:中医症状表型集成本体

在2024-07-19, 由北京交通大学;湖北省中医院 中医肝肾理论与应用研究湖北省重点实验室;中国中医科学院;湖北中医药大学;湖北省中医院检验医学科;湖北省中医院感染科;浙江大学 联合发布,用来支持中医领域中电子病历的数据挖掘和真实世界研究。借助医学文本标注系统,手动标注了经典中医教材和大型中文电子病历(EMR),以收集症状术语。

此外,为了促进不同术语之间的语义互操作性,通过手动映射中文术语和英文术语,并交叉引用源词汇表,将公开可用的生物医学词汇表整合进来。

此外,我们使用独立的临床电子病历评估了ISPO,为临床数据分析提供了一个高可用性的医学本体。结果:通过整合78,696例住院患者的电子病历、5个生物医学词汇表、21本中医书籍和词典,

ISPO提供了3,147个概念、23,475个术语和55,552个定义或上下文文本。

ISPO遵循症状表型相关解剖系统的分类结构,提供了12个顶级类别和79个中级子类别。

数据分析验证表明,ISPO对三个独立的已整理临床数据集中的出现率为0.5%的症状术语的覆盖率分别为95.35%、98.53%和92.66%,这表明ISPO在将临床术语映射到本体方面具有重要价值。

添加图片注释,不超过 140 字(可选)

数据集3:TCMD 中医问题数据集

中医问题数据集

当前困难和挑战

没有先前的研究探讨了大型语言模型(LLMs)在传统中医(TCM)领域的表现,这是一门具有丰富历史的重要而独特的医学知识分支。

TCM-QA的中医问题数据集:

在2024-06-07 由南京理工大学,南京中医药大学发布,包括三种问题类型:单选题、多选题和判断题,以检验LLM在TCM领域内知识回忆和综合推理的能力。

在我们的研究中,我们评估了LLM的两种设置,零-shot和少-shot设置,同时讨论了英文和中文提示之间的差异。我们的结果表明,ChatGPT在判断题中表现最佳,精度最高为0.688,而在多选题中得分最低的精度为0.241。此外,我们观察到中文提示在我们的评估中表现优于英文提示。此外,我们评估了ChatGPT生成的解释质量及其对TCM知识理解的潜在贡献。本文为LLMs在专业领域中的适用性提供了宝贵的见解,并为未来利用这些强大模型推进TCM的研究铺平了道路。

数据集地址:TCMD|中医数据集|人工智能评估数据集

添加图片注释,不超过 140 字(可选)

数据集4:TCMBench 评估大模型在 中医领域的综合基准

| 评估大模型在中医领域的表现

目前遇到困难和挑战:

大型语言模型 (LLM) 在各种自然语言处理任务中表现出色,包括西方医学领域。然而,在拥有悠久历史和广泛影响力的中医领域,LLM 的专业评估基准尚未涵盖。

在2024-06-09,由华东师范大学、同济大学推出了 TCM-Bench。一个用于评估 LLM 在中医领域表现的综合基准。

它包含 TCM-ED 数据集,包含来自中医执业医师资格考试 (TCMLE) 的 5,473 个问题,其中 1,300 个问题带有权威分析。它涵盖了 TCMLE 的核心内容,包括中医基础和临床实践。

为了评估 LLM 在问答准确性之外的表现,我们提出了 TCMScore,一个专门用于评估 LLM 生成的中医相关问题答案质量的指标。它全面考虑了中医语义和知识的一致性。

数据集地址:TCMBench: A Comprehensive Benchmark for Evaluating Large Language Models in Traditional Chinese Medicine|中医数据集|自然语言处理数据集

更多免费数据集下载网站,请打开:遇见数据集

www.selectdataset.com/