基于K-Means聚类的阅读用户画像与偏好可视化分析系统-基于Python与Spark的阅读数据分析与可视化系统-面向全民阅读的用户行为分析与可视化

注意：该项目只展示部分功能

1 开发环境

发语言：python 采用技术：Spark、Hadoop、Django、Vue、Echarts等技术框架数据库：MySQL 开发环境：PyCharm

2 系统设计

随着数字阅读与传统纸质阅读的深度融合，阅读行为数据呈现爆发式增长，海量用户阅读记录、偏好选择及社交分享数据蕴含着巨大的分析价值。传统的人工统计方式已难以应对多源异构数据的处理需求，亟需利用大数据技术构建高效的分析平台。本系统基于Hadoop分布式存储与Spark计算引擎，结合Vue前端框架与ECharts可视化技术，针对阅读群体的年龄结构、媒介偏好、教育背景及收入水平等多维特征进行深度挖掘，实现对阅读行为的精准刻画与群体细分，为文化服务机构提供数据支撑。

本系统的建设能够有效整合分散的阅读数据资源，通过机器学习算法识别不同用户群体的阅读模式与需求差异，帮助图书馆、出版社及文化管理部门优化藏书结构、制定精准推广策略。系统通过可视化大屏直观展示阅读趋势与群体特征，降低数据分析门槛，提升决策效率。同时，基于聚类分析的用户分群功能可支持个性化阅读推荐，促进优质内容精准触达，对推动全民阅读、建设书香社会具有重要的实践价值。

本研究围绕海量阅读数据的采集、存储、分析与可视化展开，构建基于Hadoop+Spark的大数据处理架构，实现TB级阅读行为数据的高效清洗与计算。研究采用Python进行数据预处理与特征工程，利用Spark MLlib实现用户聚类算法，通过Vue.js与ECharts开发响应式可视化界面。核心目标在于挖掘阅读行为的潜在模式，建立多维用户画像标签体系，识别不同群体的阅读偏好差异，为公共文化服务数字化转型提供技术路径与决策依据。

用户基础信息管理：系统支持对注册用户档案及详细阅读情况数据的维护管理，包括年龄、性别、教育背景、收入水平、年阅读量等字段的录入与查询，为后续分析提供标准化数据基础。多维用户画像构建：从年龄、性别、教育、收入、婚姻、就业六个维度刻画用户特征，通过面积图展示年龄分布趋势，分析不同社会属性人群的阅读参与度差异。阅读偏好差异挖掘：对比少年与老年群体在纸质书、有声书、电子书上的偏好率差异，分析教育背景与新闻阅读率、杂志阅读率的关联规律，揭示收入水平对媒介选择的影响机制。用户聚类与分群：基于年龄与年阅读量进行K-Means聚类，将用户划分为四个典型群体，通过散点图展示聚类结果，并提供各群体的详细画像描述（如"中年传统阅读者偏好纸质书，通过购买和图书馆获取书籍"）。群体书籍来源分析：利用旭日图可视化展示不同分群用户的书籍获取渠道（购买、朋友借阅、图书馆借阅、其他来源）占比，揭示群体间的资源获取行为差异。可视化大屏展示：集成用户年龄分布、阅读媒介偏好漏斗、年阅读量分段标签、教育背景横向柱状图及性别与书籍来源堆叠图，实现多维度数据的联动展示与宏观趋势洞察。

3c 系统展示

3.1 大屏页面

3.3 分析页面

3.4 基础页面

ScreenShot_2026-01-26_173325_477 - 副本.png

ScreenShot_2026-01-26_173332_572 - 副本.png

5 部分功能代码

# 初始化Spark会话
spark = SparkSession.builder \
    .appName("ReadingPreferenceAnalysis") \
    .config("spark.sql.warehouse.dir", "/user/hive/warehouse") \
    .getOrCreate()

# 从HDFS读取用户阅读行为原始数据
df = spark.read.option("header", "true").csv("hdfs://localhost:9000/reading_data/user_behavior.csv")

# 年龄段阅读媒介偏好分析：将连续年龄映射为离散年龄段（少年、中年、老年）
age_grouped = df.withColumn(
    "age_group",
    when(col("age") <= 17, "少年(0-17岁)")
    .when((col("age") >= 36) & (col("age") <= 55), "中年(36-55岁)")
    .when(col("age") >= 56, "老年(56岁及以上)")
    .otherwise("青年(18-35岁)")
)

# 统计各年龄段不同媒介（纸质书、电子书、有声书）的用户数量，用于漏斗图与柱状图展示
media_preference_stats = age_grouped.groupBy("age_group") \
    .pivot("media_type", ["纸质书", "电子书", "有声书"]) \
    .agg(count("user_id").alias("user_count")) \
    .na.fill(0)

# 计算各媒介偏好率（百分比），用于展示少年与老年群体的媒介偏好差异
total_by_age = age_grouped.groupBy("age_group").count().withColumnRenamed("count", "total_count")
media_preference_rate = media_preference_stats.join(total_by_age, "age_group")
for media in ["纸质书", "电子书", "有声书"]:
    media_preference_rate = media_preference_rate.withColumn(
        f"{media}_preference_rate", 
        round(col(f"{media}_user_count") / col("total_count") * 100, 2)
    )

# 教育背景与新闻/期刊阅读习惯关联分析：统计不同学历用户的新闻阅读率和杂志阅读率
education_reading_habit = df.groupBy("education_background") \
    .agg(
        round(avg(when(col("read_news") == "是", 1).otherwise(0)) * 100, 2).alias("news_reading_rate"),
        round(avg(when(col("read_magazine") == "是", 1).otherwise(0)) * 100, 2).alias("magazine_reading_rate"),
        count("user_id").alias("user_count")
    ) \
    .filter(col("education_background").isNotNull()) \
    .orderBy(col("news_reading_rate").desc())

# 性别与书籍来源关系分析：统计男女用户在购买、借阅、朋友推荐等渠道的分布（堆叠图数据）
gender_book_source = df.groupBy("gender", "book_source") \
    .agg(count("user_id").alias("user_count")) \
    .groupBy("gender") \
    .pivot("book_source", ["购买", "朋友借阅", "图书馆借阅", "其他来源"]) \
    .agg(sum("user_count")) \
    .na.fill(0)

# 将年龄段媒介偏好结果写入MySQL，供ECharts柱状图展示
media_preference_rate.write.format("jdbc") \
    .option("url", "jdbc:mysql://localhost:3306/reading_analysis") \
    .option("dbtable", "age_media_preference") \
    .option("user", "root") \
    .option("password", "password") \
    .mode("overwrite") \
    .save()

# 将教育背景与新闻期刊阅读习惯写入MySQL，供折线图展示
education_reading_habit.write.format("jdbc") \
    .option("url", "jdbc:mysql://localhost:3306/reading_analysis") \
    .option("dbtable", "education_reading_habit") \
    .option("user", "root") \
    .option("password", "password") \
    .mode("overwrite") \
    .save()

源码项目、定制开发、文档报告、PPT、代码答疑 希望和大家多多交流