26届计算机大数据毕设选题基于python+hadoop+spark的肝硬化患者数据分析与可视化系统基于机器学习的肝硬化患者疾病分期与生存状态关联研究

💕💕作者：计算机源码社 💕💕个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Spark、hadoop、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！

1、研究背景

随着大数据技术的快速发展，医疗健康领域逐渐引入数据分析工具以提升疾病管理的效率和精度。肝硬化作为一种常见的慢性肝病，其病程复杂且影响因素众多，传统的诊疗方法难以全面掌握患者的病情变化和治疗效果。因此，开发一个基于python+hadoop+spark的肝硬化患者数据分析与可视化系统，能够整合和分析大量患者的医疗数据，为医生提供直观、准确的病情评估和治疗决策支持，显得尤为重要。该系统通过数据挖掘和可视化技术，帮助医疗工作者更好地理解肝硬化的发病机制和治疗过程，从而提高诊疗效果。

2、研究目的和意义

基于python+hadoop+spark的肝硬化患者数据分析与可视化系统旨在通过大数据技术和可视化分析工具，为肝硬化患者提供全面、细致的病情监测和分析服务。系统通过收集和整合患者的年龄、性别、疾病分期、生存状态等关键信息，利用先进的数据分析算法，生成直观的图表和报告，帮助医生和研究人员快速识别病情趋势和关键影响因素。此外，系统还支持治疗方案的效果评估和生存风险预测，为个性化治疗提供科学依据。通过这些功能，系统希望能够提高肝硬化患者的治疗效果，延长生存期，改善生活质量。

开发基于python+hadoop+spark的肝硬化患者数据分析与可视化系统具有重要的社会和医疗意义，它能够显著提高医疗资源的利用效率，通过精准的数据分析减少不必要的医疗干预，降低医疗成本。系统提供的个性化治疗方案和生存风险预测，有助于提高患者的治疗成功率和生活质量，减少肝硬化对个人和社会的负担。该系统还能够促进医学研究的发展，通过大规模数据分析揭示肝硬化的发病机制和治疗规律，为新药研发和治疗方法创新提供数据支持，该系统的开发和应用将对提升肝硬化的诊疗水平产生深远影响。

3、系统研究内容

基于python+hadoop+spark的肝硬化患者数据分析与可视化系统主要开发内容包括数据收集、数据处理、数据分析和数据可视化四个部分，系统通过与医院信息系统对接，自动收集肝硬化患者的医疗数据，包括年龄、性别、疾病分期、生存状态等关键信息。系统对收集到的数据进行清洗和整理，确保数据的准确性和一致性。然后利用大数据技术和机器学习算法对数据进行深入分析，挖掘病情变化规律和治疗影响因素。最后系统通过可视化技术将分析结果以图表形式展示，使医生和研究人员能够直观地理解数据背后的信息。结合系统中的信息，系统的具体功能模块包括：患者年龄分布：通过柱状图展示不同年龄段的患者数量，帮助分析年龄对肝硬化的影响。患者性别比例：利用饼图展示男女患者的分布情况，分析性别差异对疾病的影响。疾病分期分布：通过饼图展示不同疾病分期的患者数量，帮助医生了解病情分布。各分期下生存状态：使用堆叠柱状图展示不同分期下患者的生存、死亡和肝移植后存活情况。白蛋白与胆红素关系：通过散点图分析白蛋白和胆红素之间的相关性，为治疗提供参考。治疗方案对关键指标影响：比较不同治疗方案对患者关键生化指标的影响，评估治疗效果。各年龄段生存风险：分析不同年龄段患者的生存风险，为个性化治疗提供依据。不同生存状态下关键指标：通过雷达图展示不同生存状态下患者的关键生化指标，帮助医生全面了解病情。

4、系统页面设计

大屏1.png

大屏2.png

患者特征.png

疾病分期.png

临床指标.png

生存因素.png

数据管理.png

5、参考文献

[1]杨梅乙.基于深度学习的临床影像疾病精准预测方法研究[D].电子科技大学,2025.DOI:10.27005/d.cnki.gdzku.2025.000594. [2]王涛.基于深度学习的肝脏图像分割方法研究与应用[D].湘潭大学,2024.DOI:10.27426/d.cnki.gxtdu.2024.001327. [3]潘云.虚拟教学代理的非言语情绪设计对视频学习的影响：匹配与形象的作用[D].华中师范大学,2024.DOI:10.27159/d.cnki.ghzsu.2024.002638. [4]吕嘉宇.热挤压4D打印构建铁(Ⅲ)-氧化淀粉凝胶及其补铁效果的研究[D].华南理工大学,2024.DOI:10.27151/d.cnki.ghnlu.2024.001178. [5]孙镕.基于MRI图像的肝脏肿瘤分割和辅助诊断算法研究[D].哈尔滨工程大学,2024.DOI:10.27060/d.cnki.ghbcu.2024.000415. [6]牛广利,刘翔,宋家琳,等. 针对肝包膜特征图的自动化提取方法[J].电子科技,2022,35(10):39-44.DOI:10.16180/j.cnki.issn1007-7820.2022.10.007. [7]陈弘扬.基于混合域注意力机制的肝纤维化CT影像的数据分析[D].北京化工大学,2022.DOI:10.26939/d.cnki.gbhgu.2022.000346. [8]任玉艳.基于谱聚类的肠道菌群分析[D].昆明理工大学,2022.DOI:10.27200/d.cnki.gkmlu.2022.002093. [9]刘迷迷,杜国霞,周毅,等. 专病数据库建设与应用研究[J].医学信息学杂志,2021,42(11):81-86+93. [10]王忠烈.基于组学数据的肝癌亚型分类研究[D].安徽大学,2021.DOI:10.26917/d.cnki.ganhu.2021.000115. [11]荣梦玲,王朝立,孙占全. 基于窗口优化技术的肝和肿瘤CT图像的自动分割[J].计算机应用研究,2021,38(07):2220-2224+2230.DOI:10.19734/j.issn.1001-3695.2020.06.0261. [12]陈俊光. 基于TCGA数据库构建肝癌Ten-miRNAs风险评估模型及预后分析[J].生物化工,2020,6(06):36-41. [13]王纯杰,张乐,陈嘉,等. 基于随机森林插补的缺失数据的印度肝脏病人数据支持向量机分类分析[J].吉林师范大学学报(自然科学版),2020,41(04):36-40.DOI:10.16862/j.cnki.issn1674-3873.2020.04.007. [14]董亚兰. 基于DB-Net的CT图像自动化肝脏分割方法[J].信息工程大学学报,2020,21(05):559-564. [15]肖宇飞,冯佳宁,王晓璇,等. 利用数据库数据采用联合模型动态预测312例肝硬化患者预后的观察分析[J].山东大学学报(医学版),2020,58(09):71-76+82. [16]郑波.热挤压3D打印构建大米淀粉-儿茶素复合物的消化性能及抗肥胖机理研究[D].华南理工大学,2020.DOI:10.27151/d.cnki.ghnlu.2020.000757. [17]任帅.基于动态增强医学影像的肝癌定量分析方法[D].桂林电子科技大学,2020.DOI:10.27049/d.cnki.ggldc.2020.000222. [18]龙珑,基于TCGA深度神经网络的广西肝癌药物靶点挖掘系统1.0.广西壮族自治区,南宁师范大学,2020-05-11. [19]钟蓝海,马丹丹,孙康,等. 基于数据挖掘分析FAM96B在肝癌中的表达及预后情况[J].华南国防医学杂志,2020,34(01):9-14.DOI:10.13730/j.issn.1009-2595.2020.01.003. [20]洪晓华,荣震,杨梦娜,等. 基于数据挖掘探析古代肝脏占位性病变用药规律[J].辽宁中医药大学学报,2020,22(01):121-124.DOI:10.13194/j.issn.1673-842x.2020.01.033.

6、核心代码

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 模拟数据加载
def load_data():
    # 假设数据存储在CSV文件中，这里使用Pandas读取数据
    data = pd.read_csv('cirrhosis_patients.csv')
    return data

# 数据清洗
def clean_data(data):
    # 去除缺失值
    data = data.dropna()
    # 转换数据类型
    data['age'] = data['age'].astype(int)
    data['albumin'] = data['albumin'].astype(float)
    data['bilirubin'] = data['bilirubin'].astype(float)
    return data

# 数据分析
def analyze_data(data):
    # 患者年龄分布
    age_distribution = data['age'].value_counts().sort_index()
    
    # 患者性别比例
    gender_distribution = data['gender'].value_counts()
    
    # 疾病分期分布
    stage_distribution = data['stage'].value_counts()
    
    # 各分期下生存状态
    survival_status = data.groupby('stage')['survival_status'].value_counts().unstack().fillna(0)
    
    # 白蛋白与胆红素关系
    albumin_bilirubin_relation = data[['albumin', 'bilirubin']].dropna()
    
    # 治疗方案对关键指标影响
    treatment_effect = data.groupby('treatment')['albumin'].mean().reset_index()
    
    # 各年龄段生存风险
    age_survival_risk = data.groupby('age')['survival_status'].value_counts().unstack().fillna(0)
    
    # 不同生存状态下关键指标
    survival_key_indicators = data.groupby('survival_status')[['albumin', 'bilirubin', 'prothrombin_time']].mean().reset_index()
    
    return {
        'age_distribution': age_distribution,
        'gender_distribution': gender_distribution,
        'stage_distribution': stage_distribution,
        'survival_status': survival_status,
        'albumin_bilirubin_relation': albumin_bilirubin_relation,
        'treatment_effect': treatment_effect,
        'age_survival_risk': age_survival_risk,
        'survival_key_indicators': survival_key_indicators
    }

# 数据可视化
def visualize_data(analysis_results):
    # 患者年龄分布
    plt.figure(figsize=(10, 6))
    sns.barplot(x=analysis_results['age_distribution'].index, y=analysis_results['age_distribution'].values)
    plt.title('患者年龄分布')
    plt.xlabel('年龄')
    plt.ylabel('患者数量')
    plt.show()
    
    # 患者性别比例
    plt.figure(figsize=(8, 6))
    sns.pieplot(analysis_results['gender_distribution'], labels=analysis_results['gender_distribution'].index, autopct='%1.1f%%')
    plt.title('患者性别比例')
    plt.ylabel('')
    plt.show()
    
    # 疾病分期分布
    plt.figure(figsize=(8, 6))
    sns.pieplot(analysis_results['stage_distribution'], labels=analysis_results['stage_distribution'].index, autopct='%1.1f%%')
    plt.title('疾病分期分布')
    plt.ylabel('')
    plt.show()
    
    # 各分期下生存状态
    analysis_results['survival_status'].plot(kind='bar', stacked=True, figsize=(12, 6))
    plt.title('各分期下生存状态')
    plt.xlabel('疾病分期')
    plt.ylabel('患者数量')
    plt.show()
    
    # 白蛋白与胆红素关系
    plt.figure(figsize=(10, 6))
    sns.scatterplot(x='albumin', y='bilirubin', data=analysis_results['albumin_bilirubin_relation'])
    plt.title('白蛋白与胆红素关系')
    plt.xlabel('白蛋白')
    plt.ylabel('胆红素')
    plt.show()
    
    # 治疗方案对关键指标影响
    plt.figure(figsize=(10, 6))
    sns.barplot(x='treatment', y='albumin', data=analysis_results['treatment_effect'])
    plt.title('治疗方案对关键指标影响')
    plt.xlabel('治疗方案')
    plt.ylabel('平均白蛋白')
    plt.show()
    
    # 各年龄段生存风险
    analysis_results['age_survival_risk'].plot(kind='bar', stacked=True, figsize=(12, 6))
    plt.title('各年龄段生存风险')
    plt.xlabel('年龄')
    plt.ylabel('患者数量')
    plt.show()
    
    # 不同生存状态下关键指标
    plt.figure(figsize=(10, 6))
    sns.lineplot(data=analysis_results['survival_key_indicators'], markers=True)
    plt.title('不同生存状态下关键指标')
    plt.xlabel('survival_status')
    plt.ylabel('指标均值')
    plt.show()

# 主函数
def main():
    data = load_data()
    clean_data = clean_data(data)
    analysis_results = analyze_data(clean_data)
    visualize_data(analysis_results)

if __name__ == "__main__":
    main()