毕业设计实战：医疗产品销售数据分析系统的设计与实现（含算法改进 + 代码）一、项目背景：医疗销售为何需要智能数据分析

一、项目背景：医疗销售为何需要智能数据分析系统？

医疗产品销售行业有个核心痛点：数据量大但价值难挖掘。比如某医疗经销商，每天要处理 “药品出库量、运输时间、区域销量” 等数据，但传统人工统计只能看 “表面销量”，无法发现 “运输超期导致的库存积压”“异常订单背后的渠道风险”，更没法精准预测下月销量 —— 这直接影响采购计划、资金周转和市场响应速度。

举个真实场景：某款降压药（如苯磺酸氨氯地平片），周五、周六是采购高峰，但传统统计要到月底才发现 “某区域运输时间突然从 6 天涨到 148 天”，等察觉时已导致该区域断货，损失近 10 万营收。

本项目的目标就是解决这些问题：基于数据挖掘 + 机器学习技术，设计一套医疗产品销售数据分析系统，实现两大核心功能 ——

异常检测：自动识别 “运输超期、销量突增突降” 等异常数据，及时预警风险；
销售预测：精准预测未来销量，指导采购与库存管理，避免断货或积压。

二、核心技术栈：从数据处理到算法落地

系统围绕 “数据预处理→异常检测→销售预测→结果可视化” 全流程选型，兼顾 “算法创新性” 与 “工程实用性”，具体技术栈如下：

技术类别	具体选型	核心作用
数据处理	Python（Pandas、NumPy）	清洗医疗销售原始数据（如去重、补全缺失值、转换日期格式）；计算 “运输天数”（通过进货 / 出库日期差）、“销量均值” 等关键指标，为后续算法输入做准备。
数据库	MySQL	存储原始销售数据（如 2015-2016 年某经销商的 “销售方、购买方、运输天数、销量” 数据），支持 SQL 筛选（如筛选 “ECR60D 产品、经销商渠道” 的订单），方便后续提取分析样本。
异常检测算法	改进 DBscan（K-means 动态参数）	传统 DBscan 需手动调 “Eps（邻域半径）” 参数，容易出错；本项目用 K-means 对 “数据点距离” 聚类，动态计算最优 Eps，精准识别 “运输超期、异常销量” 等离群点。
销售预测算法	改进随机森林（融合 Adaboost）	传统随机森林预测精度有限；本项目用 Adaboost 对多棵决策树加权集成 —— 对 “预测准的树加大权重，预测差的树减小权重”，提升销量预测精度（比传统方法高 12%）。
可视化工具	Matplotlib、ECharts	用 Matplotlib 绘制 “数据分布散点图、算法聚类结果”；用 ECharts 实现前端可视化（如 “各区域销量走势图”“改进前后预测值对比图”），让运营人员直观查看结果。
算法框架	Scikit-learn	提供 DBscan、K-means、随机森林等基础算法接口，支持快速修改参数（如随机森林的 “决策树数量 n_estimators=100”），降低算法实现难度。

三、系统核心设计：从数据预处理到算法实现

3.1 第一步：数据预处理 —— 从 “脏数据” 到 “可用样本”

医疗销售原始数据常存在 “格式混乱、重复记录、缺失值” 等问题，必须先清洗才能用。本项目用MySQL+Python完成预处理，核心步骤如下：

3.1.1 数据提取（MySQL）

从经销商远程数据库中筛选目标数据（如 “ECR60D 产品、2016-2017 年经销商渠道订单”），关键 SQL 语句：

SELECT
  Y.serialnumber,  -- 产品序列号
  Y.qty,           -- 销售数量
  Y.docdate,       -- 销售出库日期
  Y.doctype,       -- 单据类型（销售出库）
  Y.distname,      -- 销售方
  Y.cusname,       -- 购买方
  X.docdate AS in_docdate,  -- 进货入库日期
  DATEDIFF(day, Y.docdate, X.docdate) AS transport_days  -- 运输天数（入库-出库）
FROM [cdcs].[dbo].[product_inout_sn] AS X
LEFT JOIN [cdcs].[dbo].[product_inout_sn] AS Y 
  ON X.serialnumber = Y.serialnumber
WHERE 
  X.itemcode = 'ECR60D'  -- 目标产品
  AND X.doctype = '进货入库' 
  AND Y.doctype = '销售出库'
  AND X.docdate BETWEEN '2016-08-15 00:00:00' AND '2017-06-30 00:00:00'
  AND Y.custype = '经销商';  -- 经销商渠道

3.1.2 数据清洗（Python）

用 Pandas 处理提取后的数据，解决 3 类问题：

去重：删除 “serialnumber（产品序列号）+docdate（日期）” 重复的记录；
补缺失值：运输天数缺失的，用同区域同产品的平均运输天数填充；
异常值初步过滤：删除 “销量＜0”“运输天数＞365” 的明显错误数据。

import pandas as pd
import numpy as np

# 读取MySQL数据（假设已通过pymysql连接并导出为CSV）
df = pd.read_csv("medical_sales_data.csv")

# 1. 去重（按产品序列号+销售日期）
df = df.drop_duplicates(subset=['serialnumber', 'docdate'], keep='first')

# 2. 补全运输天数缺失值（用同销售方的平均值）
df['transport_days'] = df.groupby('distname')['transport_days'].transform(
    lambda x: x.fillna(x.mean())
)

# 3. 过滤明显错误数据
df = df[(df['qty'] > 0) & (df['transport_days'] <= 365)]

# 最终得到可用样本（示例：625条记录）
print(f"清洗后样本数：{len(df)}")
print(df[['distname', 'cusname', 'transport_days', 'qty']].head())

清洗后部分数据如下（与论文表 3-1 一致）：

销售方	购买方	运输天数	销售数量
江苏百畅	江苏捷迈医疗有限公司	8.00	24.00
江苏百畅	金华市易佰贸易有限公司	6.00	10.00
江苏百畅	江苏壹叁玖医疗有限公司	148.00	10.00

3.2 第二步：异常检测 —— 改进 DBscan 算法识别风险

传统 DBscan 算法的痛点是 “Eps 参数需手动调”，比如运输天数数据，Eps 设小了会误判正常数据为异常，设大了会漏检真异常。本项目用K-means 动态计算 Eps，解决参数选择难题。

3.2.1 核心思路

计算距离：对 “运输天数 - 销售数量” 二维数据，计算每个数据点到其他点的欧式距离，形成距离集合；
K-means 聚类：对距离集合聚类（k 从 2 到 10 测试），选 “聚类效果评价参数最小” 的 k 值（本项目 k=2）；
动态算 Eps：取 “占比最大的距离簇” 的均值，作为 DBscan 的 Eps（本项目 Eps=47.7094）；
DBscan 聚类：用 Eps=47.7094、Minpts=7（经验值，通过多次测试确定）聚类，离群点即为异常数据。

3.2.2 核心代码（Python）

from sklearn.cluster import KMeans, DBSCAN
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
import numpy as np

# 1. 准备数据（取运输天数、销售数量作为特征）
X = df[['transport_days', 'qty']].values

# 2. 计算所有数据点间的欧式距离（用于K-means选Eps）
def calculate_distances(data):
    distances = []
    n = len(data)
    for i in range(n):
        for j in range(i+1, n):
            dist = np.linalg.norm(data[i] - data[j])
            distances.append(dist)
    return np.array(distances)

distances = calculate_distances(X)

# 3. K-means选最优k（k=2到10，选聚类效果最好的）
k_scores = []
k_range = range(2, 11)
for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42)
    labels = kmeans.fit_predict(distances.reshape(-1, 1))
    # 用轮廓系数评价聚类效果（越接近1越好）
    score = silhouette_score(distances.reshape(-1, 1), labels)
    k_scores.append(score)

# 画图：k值与聚类效果（论文图3-3）
plt.plot(k_range, k_scores, marker='o')
plt.xlabel('k值')
plt.ylabel('轮廓系数（聚类效果）')
plt.title('k值与聚类效果关系')
plt.show()

# 4. 用k=2聚类距离集合，算Eps
kmeans = KMeans(n_clusters=2, random_state=42)
dist_labels = kmeans.fit_predict(distances.reshape(-1, 1))

# 统计每个簇的数量和占比
cluster_counts = np.bincount(dist_labels)
cluster_ratios = cluster_counts / len(distances)

# 计算每个簇的距离均值
cluster_0_dist = distances[dist_labels == 0]
cluster_1_dist = distances[dist_labels == 1]
mean_0 = cluster_0_dist.mean()
mean_1 = cluster_1_dist.mean()

# 加权平均算Eps（占比大的簇权重高）
Eps = mean_0 * cluster_ratios[0] + mean_1 * cluster_ratios[1]
print(f"动态计算的Eps：{Eps:.4f}")  # 输出：47.7094

# 5. DBscan聚类检测异常
dbscan = DBSCAN(eps=Eps, min_samples=7)
db_labels = dbscan.fit_predict(X)

# 标记异常（label=-1为异常）
df['is_abnormal'] = (db_labels == -1).astype(int)

# 统计结果（论文图3-4）
abnormal_count = df['is_abnormal'].sum()
normal_count = len(df) - abnormal_count
print(f"正常数据：{normal_count}条，异常数据：{abnormal_count}条")  # 输出：正常617条，异常8条

# 画图：聚类结果（正常绿色，异常红色）
plt.scatter(X[db_labels != -1, 0], X[db_labels != -1, 1], c='green', label='正常')
plt.scatter(X[db_labels == -1, 0], X[db_labels == -1, 1], c='red', label='异常')
plt.xlabel('运输天数')
plt.ylabel('销售数量')
plt.legend()
plt.title('DBscan异常检测结果')
plt.show()

3.2.3 结果分析

异常数据主要是 “运输天数超 100 天” 的订单（如 148 天、132 天），与实际业务吻合 —— 这些订单因物流延误导致库存积压，需及时跟进渠道问题，验证了算法的有效性。

3.3 第三步：销售预测 —— 改进随机森林（融合 Adaboost）

传统随机森林预测销量时，所有决策树权重相同，容易受 “预测差的树” 影响精度。本项目用Adaboost 加权集成，让 “预测准的树多贡献，预测差的树少贡献”，提升预测精度。

3.3.1 核心思路

特征选择：选 “最高气温、最低气温、降雨概率、上周销量、上上周销量” 作为输入特征（影响医疗产品销量的关键因素）；
样本划分：150 组数据训练，90 组数据测试；
改进随机森林：
- 用随机森林生成多棵决策树（弱学习器）；
- 计算每棵树的 “预测错误率”，错误率低的树权重高（用 Adaboost 公式更新权重）；
- 最终预测值 = 所有树预测值 × 对应权重的加权平均；
效果验证：对比改进前后的预测误差（改进后误差降低 12%）。

3.3.2 核心代码（Python）

        return weighted_pred

# 5. 训练改进模型并预测
adaboost_rf = AdaboostRandomForest(n_estimators=20, n_trees=100, random_state=42)
adaboost_rf.fit(X_train, y_train)
y_pred_adaboost_rf = adaboost_rf.predict(X_test)

# 6. 计算预测误差（评估模型效果）
def calculate_relative_error(y_true, y_pred):
    """计算相对误差（绝对值/真实值）"""
    return np.abs(y_pred - y_true) / y_true

# 传统随机森林误差
rf_relative_err = calculate_relative_error(y_test, y_pred_rf)
rf_mean_err = np.mean(rf_relative_err)  # 平均相对误差
rf_acc = np.sum(rf_relative_err <= 0.1) / len(y_test)  # 误差≤10%的样本占比

# 改进随机森林误差
adaboost_rf_relative_err = calculate_relative_error(y_test, y_pred_adaboost_rf)
adaboost_rf_mean_err = np.mean(adaboost_rf_relative_err)
adaboost_rf_acc = np.sum(adaboost_rf_relative_err <= 0.1) / len(y_test)

# 输出对比结果
print("=== 预测效果对比 ===")
print(f"传统随机森林 - 平均相对误差：{rf_mean_err:.4f}，误差≤10%占比：{rf_acc:.2%}")
print(f"改进随机森林 - 平均相对误差：{adaboost_rf_mean_err:.4f}，误差≤10%占比：{adaboost_rf_acc:.2%}")
print(f"精度提升：{rf_mean_err - adaboost_rf_mean_err:.4f}（平均误差降低）")

# 7. 可视化对比（论文图4-4）
plt.figure(figsize=(12, 6))
x = np.arange(len(y_test))  # 测试样本序号
plt.plot(x, y_test, 'o-', label='实际销量', color='blue', alpha=0.7)
plt.plot(x, y_pred_rf, 's--', label='传统随机森林预测', color='orange', linewidth=1.5)
plt.plot(x, y_pred_adaboost_rf, '^-.', label='改进随机森林预测', color='green', linewidth=1.5)
plt.xlabel('测试样本序号')
plt.ylabel('销量（EA）')
plt.title('改进前后随机森林预测值与实际值对比')
plt.legend()
plt.grid(alpha=0.3)
plt.show()

# 8. 输出部分预测结果（与论文表4-4一致）
result_df = pd.DataFrame({
    '实际值': y_test[:10],
    '传统随机森林预测值': y_pred_rf[:10].round(4),
    '传统随机森林误差': rf_relative_err[:10].round(6),
    '改进随机森林预测值': y_pred_adaboost_rf[:10].round(4),
    '改进随机森林误差': adaboost_rf_relative_err[:10].round(6)
})
print("\n=== 部分测试样本预测结果 ===")
print(result_df)

3.3.3 结果分析

运行结果显示：

传统随机森林平均相对误差约 0.085，误差≤10% 的样本占比 78%；
改进随机森林（融合 Adaboost）平均相对误差降至 0.073，误差≤10% 的样本占比提升至 90%；
相比传统方法，预测精度提升约 12%，能更精准捕捉 “气温变化、历史销量” 对医疗产品销量的影响（如低温天气降压药销量略增），为采购计划提供可靠依据。

四、系统测试与实际应用

4.1 功能测试：验证核心能力

4.1.1 异常检测功能测试

测试场景：向系统输入 “运输天数 150 天、销量 5 件” 的异常订单，以及 “运输天数 6 天、销量 24 件” 的正常订单；
预期结果：系统能正确标记异常订单，同时生成 “异常原因：运输超期（远超平均 6-8 天）” 的预警信息；
实际结果：异常识别准确率 100%，预警响应时间＜1 秒，测试通过。

4.1.2 销售预测功能测试

测试场景：输入 “最高温 18℃、最低温 10℃、降雨概率 40%、上周销量 37 件、上上周销量 151 件”（论文表 4-3 第一条数据）；
预期结果：预测销量与实际值（37 件）误差≤10%；
实际结果：改进模型预测值 35.8 件，相对误差 3.2%，符合预期，测试通过。

4.2 实际应用价值

某医疗经销商使用该系统后，实现了两大核心提升：

风险响应速度：运输超期、异常订单的发现时间从 “月底人工统计” 缩短至 “实时自动预警”，2024 年因物流延误导致的库存积压减少 60%；
库存周转率：基于精准销量预测（误差≤10%），采购计划准确率提升 30%，降压药、降糖药等核心产品的断货率从 15% 降至 5%，资金周转效率提升 25%。

五、项目总结与毕业设计复盘

5.1 核心成果

算法创新：
- 提出 “K-means 动态参数 DBscan”，解决传统 DBscan 手动调参难题，异常检测准确率达 98%；
- 设计 “Adaboost 融合随机森林”，比传统模型预测精度提升 12%，满足医疗销售场景的精准预测需求。
工程落地：
- 完成 “MySQL 数据提取→Python 预处理→算法分析→ECharts 可视化” 全流程开发，系统可直接对接医疗企业现有销售数据库；
- 提供 “异常预警报告”“销量预测报表” 等实用功能，运营人员无需技术背景即可操作。

5.2 踩过的坑与解决方案

DBscan 参数敏感问题
- 初期手动设 Eps=30，导致 70% 正常订单被误判为异常；
- 解决：通过 K-means 对 “数据点距离” 聚类，动态计算 Eps=47.7094，误判率降至 0。
随机森林过拟合问题
- 训练集准确率 95%，测试集准确率仅 70%，存在过拟合；
- 解决：通过 Adaboost 集成多棵决策树，同时限制单棵树深度（max_depth=10），测试集准确率提升至 90%。

5.3 给学弟学妹的建议

算法选择要 “贴合场景” ：医疗销售数据 “样本量不大但维度多”，避免盲目用复杂模型（如深度学习），选择 “改进传统算法”（如 DBscan、随机森林）更易落地且效果可控；
数据预处理是 “重中之重” ：原始数据中 “运输天数缺失、销量格式混乱” 等问题会直接导致算法失效，建议用 Pandas+SQL 分步清洗，关键步骤（如补缺失值）需结合业务逻辑（如用同区域均值而非全局均值）；
毕业设计要 “软硬结合” ：不仅要展示算法创新（如改进模型的误差对比），还要体现工程价值（如系统界面、实际应用案例），这样更容易获得高分。

六、附：项目资源获取

完整项目资源包含：

代码文件：数据预处理（MySQL+Python）、异常检测（改进 DBscan）、销售预测（改进随机森林）全流程代码；
数据集：某医疗经销商 2015-2016 年销售数据（含 ECR60D、PMW35 产品）、预处理后样本；
可视化模板：ECharts 销量走势图、异常检测结果图前端代码；
答辩 PPT：含算法原理、实验结果、应用价值的结构化演示文稿。