基于大数据的个人财务健康状况分析系统【python、Hadoop、spark、MySQL数据库、数据爬取、可定制开发项目、毕设、课设】【附源码+数据集+文档】

💖💖作者：计算机毕业设计小途 💙💙个人简介：曾长期从事计算机专业培训教学，本人也热爱上课教学，语言擅长Java、微信小程序、Python、Golang、安卓Android等，开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。平常喜欢分享一些自己开发中遇到的问题的解决办法，也喜欢交流技术，大家有技术代码这一块的问题可以问我！ 💛💛想说的话：感谢大家的关注与支持！ 💜💜 网站实战项目安卓/小程序实战项目大数据实战项目深度学习实战项目

@TOC

基于大数据的个人财务健康状况分析系统介绍

《基于大数据的个人财务健康状况分析系统》是一个综合性的数据分析与可视化平台，旨在利用主流大数据技术栈，为个人用户提供科学、量化、多维度的财务健康评估服务。本系统在技术架构上采用成熟的前后端分离模式，后端服务提供了基于Java的Spring Boot框架和基于Python的Django框架两种实现版本，通过RESTful API与前端进行数据交互，并使用MySQL数据库负责存储用户账户信息、个人资料及系统配置等结构化数据；前端则采用Vue.js作为核心框架，结合ElementUI组件库构建了现代化且响应式的用户界面，并通过强大的Echarts图表库，将后台复杂的分析结果以数据大屏、动态图表等直观形式进行可视化呈现。系统的核心竞争力在于其大数据处理与分析能力，它将用户的海量历史收支流水等非结构化或半结构化数据存储在Hadoop的HDFS分布式文件系统中，以保障数据的可扩展性与存储效率，随后利用Spark高性能内存计算框架，特别是通过Spark SQL模块，对存储于HDFS上的数据进行高效的ETL（抽取、转换、加载）、聚合运算和深度分析。具体到功能层面，系统不仅包含了“我的信息”、“修改密码”等基础用户管理模块，更重要的是实现了四大核心分析功能：“收支结构消费行为分析”模块能够挖掘用户的消费习惯与模式；“储蓄能力投资习惯分析”模块则量化评估用户的资产积累与增值潜力；“债务水平信用风险分析”模块用于监测用户的负债情况与潜在风险；“财务稳定性压力评估”模块则综合各项指标，对用户抵御财务风险的能力进行全面打分。所有这些复杂的分析计算均由后端Spark引擎完成，最终将精准的分析结果通过前端数据大屏进行集中展示，从而帮助用户全面、清晰地认知自身的财务状况，为制定合理的财务规划提供有力的数据支持。

基于大数据的个人财务健康状况分析系统演示视频

演示视频

基于大数据的个人财务健康状况分析系统演示图片

财务稳定性压力评估.png

储蓄能力投资习惯分析.png

收支结构消费行为分析.png

数据大屏上.png

数据大屏下.png

债务水平信用风险分析.png

基于大数据的个人财务健康状况分析系统代码展示

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, month, year, when, count, avg
from pyspark.sql.window import Window
# 初始化SparkSession，这是所有Spark应用的入口点，连接到Hadoop HDFS
spark = SparkSession.builder \
    .appName("PersonalFinancialHealthAnalysis") \
    .master("local[*]") \
    .getOrCreate()
# 核心功能一：收支结构与消费行为分析
def analyze_consumption_behavior(user_id: str):
    # 假设用户交易流水数据存储在HDFS的Parquet文件中
    transactions_df = spark.read.parquet(f"hdfs://namenode:9000/user_data/transactions/{user_id}.parquet")
    # 过滤出支出类型的交易记录
    expense_df = transactions_df.filter(col("type") == "expense")
    # 1. 计算总支出与核心消费类目分析
    total_expense = expense_df.select(sum("amount")).first()[0]
    # 按消费类别分组，统计每个类别的总金额和次数，找出消费大头
    category_analysis = expense_df.groupBy("category") \
        .agg(sum("amount").alias("total_amount"), count("transaction_id").alias("transaction_count")) \
        .orderBy(col("total_amount").desc()) \
        .limit(5) # 展示消费最高的5个类别
    # 2. 分析月度消费趋势
    monthly_expense_trend = expense_df.withColumn("month", month(col("transaction_date"))) \
        .withColumn("year", year(col("transaction_date"))) \
        .groupBy("year", "month") \
        .agg(sum("amount").alias("monthly_total")) \
        .orderBy("year", "month")
    # 3. 识别高频小额消费行为（例如：每日咖啡、通勤交通）
    high_freq_small_expense = expense_df.filter(col("amount") < 50) \
        .groupBy("category") \
        .agg(count("transaction_id").alias("count")) \
        .orderBy(col("count").desc()) \
        .limit(3)
    # 将分析结果聚合到一个字典中返回给前端
    result = {
        "total_expense": total_expense,
        "top_5_categories": [row.asDict() for row in category_analysis.collect()],
        "monthly_trend": [row.asDict() for row in monthly_expense_trend.collect()],
        "high_freq_small_consumption": [row.asDict() for row in high_freq_small_expense.collect()]
    }
    return result
# 核心功能二：储蓄能力与投资习惯分析
def analyze_savings_and_investment(user_id: str):
    # 复用HDFS上的用户交易流水数据
    transactions_df = spark.read.parquet(f"hdfs://namenode:9000/user_data/transactions/{user_id}.parquet")
    # 1. 使用窗口函数计算每个月的总收入和总支出
    window_spec = Window.partitionBy(year("transaction_date"), month("transaction_date"))
    monthly_summary_df = transactions_df.withColumn("monthly_income", sum(when(col("type") == "income", col("amount")).otherwise(0)).over(window_spec)) \
        .withColumn("monthly_expense", sum(when(col("type") == "expense", col("amount")).otherwise(0)).over(window_spec)) \
        .select(year("transaction_date").alias("year"), month("transaction_date").alias("month"), "monthly_income", "monthly_expense") \
        .distinct()
    # 2. 计算月度储蓄额和储蓄率
    monthly_savings_df = monthly_summary_df.withColumn("monthly_savings", col("monthly_income") - col("monthly_expense")) \
        .withColumn("savings_rate", when(col("monthly_income") > 0, (col("monthly_income") - col("monthly_expense")) / col("monthly_income")).otherwise(0)) \
        .orderBy("year", "month")
    # 3. 识别并统计投资行为
    investment_df = transactions_df.filter(col("category").isin(["funds", "stocks", "financial_product"]))
    total_investment = investment_df.select(sum("amount")).first()[0]
    # 计算总收入，用于后续计算投资率
    total_income = transactions_df.filter(col("type") == "income").select(sum("amount")).first()[0]
    investment_rate = (total_investment / total_income) if total_income else 0
    # 聚合分析结果
    result = {
        "monthly_savings_analysis": [row.asDict() for row in monthly_savings_df.collect()],
        "average_savings_rate": monthly_savings_df.select(avg("savings_rate")).first()[0],
        "total_investment": total_investment,
        "investment_to_income_ratio": investment_rate
    }
    return result
# 核心功能三：债务水平与信用风险分析
def analyze_debt_and_credit_risk(user_id: str):
    # 需要两份数据：交易流水（用于计算收入）和债务记录
    transactions_df = spark.read.parquet(f"hdfs://namenode:9000/user_data/transactions/{user_id}.parquet")
    debts_df = spark.read.parquet(f"hdfs://namenode:9000/user_data/debts/{user_id}.parquet")
    # 1. 计算近12个月的平均月收入作为稳定收入的参考
    avg_monthly_income = transactions_df.filter(col("type") == "income") \
        .withColumn("month", month(col("transaction_date"))) \
        .withColumn("year", year(col("transaction_date"))) \
        .groupBy("year", "month") \
        .agg(sum("amount").alias("monthly_income")) \
        .select(avg("monthly_income")).first()[0]
    # 2. 统计当前总负债额（例如：信用卡账单、贷款余额）
    total_debt = debts_df.filter(col("status") == "outstanding").select(sum("principal_amount")).first()[0]
    # 3. 计算关键指标：债务收入比（Debt-to-Income Ratio）
    dti_ratio = (total_debt / (avg_monthly_income * 12)) if avg_monthly_income else float('inf')
    # 4. 分析还款记录，识别逾期行为作为信用风险信号
    overdue_records_count = debts_df.filter(col("repayment_status") == "overdue").count()
    # 5. 基于规则进行初步的信用风险评估
    risk_level = "Low"
    if dti_ratio > 0.5 or overdue_records_count > 2:
        risk_level = "High"
    elif dti_ratio > 0.35 or overdue_records_count > 0:
        risk_level = "Medium"
    # 聚合分析结果
    result = {
        "average_monthly_income": avg_monthly_income,
        "total_outstanding_debt": total_debt,
        "debt_to_income_ratio": dti_ratio,
        "overdue_payment_count": overdue_records_count,
        "credit_risk_level": risk_level
    }
    return result

基于大数据的个人财务健康状况分析系统文档展示

文档.png