毕设展示会现场：基于Hadoop+Spark的心衰数据分析系统惊艳全场毕设展示会现场：基于Hadoop+Spark的心衰

🍊作者：计算机毕设匠心工作室

🍊简介：毕业后就一直专业从事计算机软件程序开发，至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。

擅长：按照需求定制化开发项目、源码、对代码进行完整讲解、文档撰写、ppt制作。

🍊心愿：点赞 👍 收藏 ⭐评论 📝

👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~

Java实战项目

Python实战项目

微信小程序|安卓实战项目

大数据实战项目

PHP|C#.NET|Golang实战项目

🍅 ↓↓文末获取源码联系↓↓🍅

基于大数据的心衰患者特征数据可视化分析系统-功能介绍

基于大数据的心衰患者特征数据可视化分析系统是一套专门针对心血管疾病领域的医疗数据分析平台，该系统充分运用Hadoop分布式存储架构和Spark大数据处理引擎，实现对心衰患者海量医疗数据的高效处理与深度挖掘。系统采用Python作为核心开发语言，结合Django后端框架构建稳定的服务层，前端采用Vue+ElementUI+Echarts技术栈打造直观友好的数据可视化界面。系统核心功能涵盖患者群体基础特征分析、关键生理指标水平分析、死亡风险关联因素探索、多维特征组合关联性分析以及患者生存周期与风险因素分析五大模块，通过对患者年龄、性别、心脏射血分数、血清肌酐、血小板计数等13个关键医疗指标进行多维度统计分析，并运用Kaplan-Meier生存分析方法构建生存曲线，为医疗决策提供数据支撑。系统底层基于HDFS分布式文件系统存储医疗数据，利用Spark SQL进行复杂查询操作，结合Pandas、NumPy等数据科学库完成统计计算，最终通过Echarts图表组件实现柱状图、饼图、散点图、热力图等多样化的数据可视化展示，为心血管疾病研究领域提供了一套完整的大数据分析解决方案。

基于大数据的心衰患者特征数据可视化分析系统-选题背景意义

选题背景随着人口老龄化进程加速和生活方式改变，心力衰竭已成为全球范围内严重威胁人类健康的重大疾病之一。传统的医疗数据分析方式往往依赖于小样本统计和单一维度分析，难以从海量的患者医疗记录中挖掘出有价值的规律和关联性。医疗机构在日常诊疗过程中积累了大量的患者数据，包括基础生理指标、实验室检查结果、病史记录等多维度信息，但这些数据往往分散存储且缺乏有效的整合分析手段。心衰疾病的复杂性决定了其发病机制和预后评估需要综合考虑多个风险因素的相互作用，单纯依靠传统统计方法已无法满足现代医学研究的需求。同时，医疗大数据时代的到来为心血管疾病研究带来了新的机遇，通过运用大数据技术对患者特征进行深度挖掘和可视化展示，能够帮助医研人员更好地理解疾病规律，为临床决策提供科学依据。选题意义本课题的研究意义主要体现在技术实践和应用价值两个层面。从技术层面来看，通过构建基于Hadoop+Spark的大数据处理架构，能够验证分布式计算技术在医疗数据分析领域的实际应用效果，为后续相关系统开发提供技术参考。系统采用的多维数据分析方法和可视化技术，有助于探索大数据技术与医疗健康领域结合的新模式。从应用价值角度，该系统能够辅助医研人员更直观地理解心衰患者的群体特征分布，通过对年龄、性别、生理指标等多维度数据的关联分析，发现潜在的疾病风险因素组合。生存分析功能的引入使得系统能够为临床预后评估提供一定的数据支持，虽然作为毕业设计项目在数据规模和算法复杂度上相对有限，但仍可为相关医疗机构的数据分析工作提供思路借鉴。同时，该系统的开发过程也体现了跨学科融合的特点，将计算机技术与医疗健康领域相结合，为培养复合型技术人才提供了实践平台。

基于大数据的心衰患者特征数据可视化分析系统-技术选型

大数据框架：Hadoop+Spark（本次没用Hive，支持定制）开发语言：Python+Java（两个版本都支持）后端框架：Django+Spring Boot(Spring+SpringMVC+Mybatis)（两个版本都支持）前端：Vue+ElementUI+Echarts+HTML+CSS+JavaScript+jQuery 详细技术点：Hadoop、HDFS、Spark、Spark SQL、Pandas、NumPy 数据库：MySQL

基于大数据的心衰患者特征数据可视化分析系统-视频展示

基于大数据的心衰患者特征数据可视化分析系统-图片展示

在这里插入图片描述

基于大数据的心衰患者特征数据可视化分析系统-代码展示

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, count, avg, max, min, desc, asc, when, isnan, isnull
from pyspark.sql.types import StructType, StructField, StringType, IntegerType, FloatType
import pandas as pd
import numpy as np
from datetime import datetime

spark = SparkSession.builder.appName("HeartFailureAnalysis").config("spark.sql.adaptive.enabled", "true").config("spark.sql.adaptive.coalescePartitions.enabled", "true").getOrCreate()

def analyze_patient_basic_characteristics(data_path):
    df = spark.read.option("header", "true").option("inferSchema", "true").csv(data_path)
    age_distribution = df.groupBy("age").count().orderBy("age")
    age_bins = df.select(when(col("age") < 50, "40-50岁").when((col("age") >= 50) & (col("age") < 70), "50-70岁").when(col("age") >= 70, "70岁以上").otherwise("其他").alias("age_group")).groupBy("age_group").count()
    gender_distribution = df.groupBy("sex").count()
    gender_stats = gender_distribution.collect()
    male_count = next((row.count for row in gender_stats if row.sex == 1), 0)
    female_count = next((row.count for row in gender_stats if row.sex == 0), 0)
    total_patients = male_count + female_count
    male_percentage = (male_count / total_patients) * 100 if total_patients > 0 else 0
    female_percentage = (female_count / total_patients) * 100 if total_patients > 0 else 0
    comorbidities = df.select(col("anaemia"), col("diabetes"), col("high_blood_pressure"))
    anaemia_count = comorbidities.filter(col("anaemia") == 1).count()
    diabetes_count = comorbidities.filter(col("diabetes") == 1).count()
    hypertension_count = comorbidities.filter(col("high_blood_pressure") == 1).count()
    smoking_analysis = df.groupBy("smoking").count()
    smoking_stats = smoking_analysis.collect()
    smoker_count = next((row.count for row in smoking_stats if row.smoking == 1), 0)
    non_smoker_count = next((row.count for row in smoking_stats if row.smoking == 0), 0)
    smoking_rate = (smoker_count / total_patients) * 100 if total_patients > 0 else 0
    result_data = {"age_distribution": age_distribution.collect(), "age_groups": age_bins.collect(), "gender_stats": {"male_count": male_count, "female_count": female_count, "male_percentage": male_percentage, "female_percentage": female_percentage}, "comorbidities": {"anaemia": anaemia_count, "diabetes": diabetes_count, "hypertension": hypertension_count}, "smoking_stats": {"smoker_count": smoker_count, "non_smoker_count": non_smoker_count, "smoking_rate": smoking_rate}, "total_patients": total_patients}
    return result_data

def analyze_physiological_indicators(data_path):
    df = spark.read.option("header", "true").option("inferSchema", "true").csv(data_path)
    ejection_fraction_stats = df.select("ejection_fraction").describe()
    ef_ranges = df.select(when(col("ejection_fraction") < 30, "严重降低(<30%)").when((col("ejection_fraction") >= 30) & (col("ejection_fraction") < 40), "中度降低(30-40%)").when((col("ejection_fraction") >= 40) & (col("ejection_fraction") < 50), "轻度降低(40-50%)").when(col("ejection_fraction") >= 50, "正常(≥50%)").otherwise("未知").alias("ef_range")).groupBy("ef_range").count()
    serum_creatinine_stats = df.select("serum_creatinine").describe()
    creatinine_ranges = df.select(when(col("serum_creatinine") < 1.2, "正常(<1.2)").when((col("serum_creatinine") >= 1.2) & (col("serum_creatinine") < 2.0), "轻度升高(1.2-2.0)").when((col("serum_creatinine") >= 2.0) & (col("serum_creatinine") < 3.0), "中度升高(2.0-3.0)").when(col("serum_creatinine") >= 3.0, "重度升高(≥3.0)").otherwise("未知").alias("creatinine_range")).groupBy("creatinine_range").count()
    platelets_stats = df.select("platelets").describe()
    platelet_ranges = df.select(when(col("platelets") < 150000, "偏低(<15万)").when((col("platelets") >= 150000) & (col("platelets") < 400000), "正常(15-40万)").when(col("platelets") >= 400000, "偏高(≥40万)").otherwise("未知").alias("platelet_range")).groupBy("platelet_range").count()
    cpk_stats = df.select("creatinine_phosphokinase").describe()
    cpk_ranges = df.select(when(col("creatinine_phosphokinase") < 200, "正常(<200)").when((col("creatinine_phosphokinase") >= 200) & (col("creatinine_phosphokinase") < 500), "轻度升高(200-500)").when((col("creatinine_phosphokinase") >= 500) & (col("creatinine_phosphokinase") < 1000), "中度升高(500-1000)").when(col("creatinine_phosphokinase") >= 1000, "重度升高(≥1000)").otherwise("未知").alias("cpk_range")).groupBy("cpk_range").count()
    correlation_analysis = df.select("ejection_fraction", "serum_creatinine", "platelets", "creatinine_phosphokinase").toPandas()
    correlation_matrix = correlation_analysis.corr()
    result_data = {"ejection_fraction": {"stats": ejection_fraction_stats.collect(), "ranges": ef_ranges.collect()}, "serum_creatinine": {"stats": serum_creatinine_stats.collect(), "ranges": creatinine_ranges.collect()}, "platelets": {"stats": platelets_stats.collect(), "ranges": platelet_ranges.collect()}, "cpk": {"stats": cpk_stats.collect(), "ranges": cpk_ranges.collect()}, "correlation_matrix": correlation_matrix.to_dict()}
    return result_data

def analyze_death_risk_factors(data_path):
    df = spark.read.option("header", "true").option("inferSchema", "true").csv(data_path)
    survival_group = df.filter(col("DEATH_EVENT") == 0)
    death_group = df.filter(col("DEATH_EVENT") == 1)
    age_survival = survival_group.agg(avg("age").alias("avg_age"), min("age").alias("min_age"), max("age").alias("max_age"))
    age_death = death_group.agg(avg("age").alias("avg_age"), min("age").alias("min_age"), max("age").alias("max_age"))
    age_comparison = {"survival": age_survival.collect()[0].asDict(), "death": age_death.collect()[0].asDict()}
    ef_survival = survival_group.agg(avg("ejection_fraction").alias("avg_ef"))
    ef_death = death_group.agg(avg("ejection_fraction").alias("avg_ef"))
    ef_comparison = {"survival_avg": ef_survival.collect()[0]["avg_ef"], "death_avg": ef_death.collect()[0]["avg_ef"]}
    hypertension_analysis = df.groupBy("high_blood_pressure", "DEATH_EVENT").count()
    hypertension_death_rates = hypertension_analysis.collect()
    diabetes_analysis = df.groupBy("diabetes", "DEATH_EVENT").count()
    diabetes_death_rates = diabetes_analysis.collect()
    smoking_analysis = df.groupBy("smoking", "DEATH_EVENT").count()
    smoking_death_rates = smoking_analysis.collect()
    creatinine_survival = survival_group.agg(avg("serum_creatinine").alias("avg_creatinine"))
    creatinine_death = death_group.agg(avg("serum_creatinine").alias("avg_creatinine"))
    creatinine_comparison = {"survival_avg": creatinine_survival.collect()[0]["avg_creatinine"], "death_avg": creatinine_death.collect()[0]["avg_creatinine"]}
    gender_analysis = df.groupBy("sex", "DEATH_EVENT").count()
    gender_death_rates = gender_analysis.collect()
    total_deaths = death_group.count()
    total_survivals = survival_group.count()
    overall_death_rate = (total_deaths / (total_deaths + total_survivals)) * 100
    result_data = {"age_comparison": age_comparison, "ejection_fraction_comparison": ef_comparison, "hypertension_death_analysis": hypertension_death_rates, "diabetes_death_analysis": diabetes_death_rates, "smoking_death_analysis": smoking_death_rates, "creatinine_comparison": creatinine_comparison, "gender_death_analysis": gender_death_rates, "overall_statistics": {"total_deaths": total_deaths, "total_survivals": total_survivals, "death_rate": overall_death_rate}}
    return result_data

基于大数据的心衰患者特征数据可视化分析系统-结语

👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~

Java实战项目

Python实战项目

微信小程序|安卓实战项目

大数据实战项目

PHP|C#.NET|Golang实战项目

🍅 主页获取源码联系🍅