工业场景数据建模指南一、场景识别与价值判断 1.1 什么是"场景"？在工业数据建模中，场景是指一个完整的生产过程单元，

本文档面向工业工程师、工艺技术员和数据分析师，系统讲解如何在工厂环境中识别有价值的场景、收集数据、分类变量，并建立有效的生产模型。

一、场景识别与价值判断

1.1 什么是"场景"？

在工业数据建模中，场景是指一个完整的生产过程单元，包含：

明确的输入（原料、参数设定）
可观测的过程状态（温度、压力、流量等）
可量化的输出结果（产品质量、产量、能耗等）

示例场景：

场景类型	描述	典型行业
反应釜批次控制	化工/制药的批次反应过程	化工、制药
发酵过程优化	微生物发酵的温度、pH、溶氧控制	食品、生物
挤出成型工艺	塑料/橡胶的挤出温度、压力、速度控制	材料加工
干燥过程控制	热风干燥的温度、湿度、时间控制	食品、农产品
配料混合系统	多组分原料的配比精度控制	食品、饲料

1.2 如何判断场景的核心价值？

不是所有场景都值得建模。使用以下评估框架：

价值评估矩阵

                    高业务价值
                         │
         ┌───────────────┼───────────────┐
         │   优先建模     │   战略储备      │
  高数据  │   (立即行动)   │   (长期规划)    │
  可获得  │               │               │
         ├───────────────┼───────────────┤
性       │   快速验证      │  暂时搁置      │
         │   (PoC试点)    │   (等待时机)   │
  低数据  │               │               │
  可获得  └───────────────┴───────────────┘
                    低业务价值

价值评估检查清单

业务价值维度（每项1-5分）：

评估项	评分标准	得分
质量问题频率	5=每月多次，1=极少发生	___
质量损失金额	5=年损失>100万，1=<10万	___
工艺优化空间	5=明显可优化，1=已很成熟	___
可复制推广性	5=多产线适用，1=单点专用	___
管理层关注度	5=高层重点关注，1=基层自发	___

数据可获得性维度（每项1-5分）：

评估项	评分标准	得分
历史数据存量	5=>1年完整数据，1=几乎无数据	___
数据质量	5=完整准确，1=大量缺失/错误	___
采集自动化程度	5=全自动采集，1=全靠人工记录	___
关键变量可测性	5=全部可在线测量，1=多数需离线检测	___
IT系统支持	5=有MES/SCADA，1=无信息化系统	___

评分解读：

业务价值总分 ≥ 20 且数据可获得性总分 ≥ 20：优先建模
业务价值总分 ≥ 20 但数据可获得性总分 < 20：先改善数据采集
业务价值总分 < 15：暂时搁置，寻找更高价值场景

1.3 场景优先级排序案例

某食品加工厂场景评估：

场景	业务价值	数据可获得性	优先级	行动建议
杀菌温度控制	25分	20分	⭐⭐⭐⭐⭐	立即启动
配料精度优化	22分	18分	⭐⭐⭐⭐	补充传感器后启动
包装密封检测	15分	22分	⭐⭐⭐	低优先级，资源充足时考虑
原料入库检验	12分	15分	⭐⭐	暂时搁置

二、数据收集策略

2.1 数据收集的四个层次

层次1: 手工记录
    └── 纸质记录表、Excel手工录入
    └── 适用：初期探索、无自动化系统
    └── 缺点：易出错、频率低、难追溯

层次2: 半自动采集
    └── 仪器数据导出 + 人工整理
    └── 适用：有关键设备但无系统集成
    └── 改进：建立标准化导出模板

层次3: 自动采集
    └── PLC/SCADA自动记录
    └── 适用：有自动化控制系统
    └── 优势：高频、准确、可追溯

层次4: 集成化平台
    └── MES/ERP/数据湖一体化
    └── 适用：数字化程度高的工厂
    └── 优势：数据关联、全链路追溯

2.2 数据收集规划模板

为每个场景制定数据收集计划：

## 场景名称：[填写]

### 1. 目标变量（Y）
| 变量名 | 测量方式 | 测量频率 | 数据位置 | 备注 |
|-------|---------|---------|---------|------|
| 产品质量指标 | 实验室检测 | 每批次 | LIMS系统 | 检测周期2小时 |
| 产品合格率 | 自动统计 | 实时 | MES系统 | - |

### 2. 特征变量（X）
| 变量名 | 变量类型 | 测量方式 | 测量频率 | 数据位置 |
|-------|---------|---------|---------|---------|
| 反应温度 | 控制变量 | 温度传感器 | 1分钟 | SCADA |
| 原料批次 | 扰动变量 | 扫码记录 | 每批次 | ERP系统 |
| 环境温度 | 扰动变量 | 温湿度计 | 1小时 | 手工记录 |

### 3. 数据收集周期
- 历史数据回溯：[ ] 个月
- 新增数据采集：从 [日期] 开始
- 目标样本量：至少 [ ] 批次/周期

### 4. 数据质量保障
- [ ] 传感器校准计划
- [ ] 异常值处理规则
- [ ] 缺失值填补策略
- [ ] 数据审核流程

2.3 数据收集最佳实践

DO（应该做）：

✅ 记录完整的批次信息（时间、操作员、原料批次）
✅ 同时收集正常和异常工况数据
✅ 标注已知的异常事件（设备故障、原料变更等）
✅ 保持时间戳一致性
✅ 定期备份原始数据

DON'T（不要做）：

❌ 只收集"好"数据，剔除"坏"数据
❌ 不同来源的数据时间戳不一致
❌ 手工转录而不保留原始记录
❌ 采样频率过低（无法捕捉动态）
❌ 采样频率过高（产生大量冗余数据）

三、变量分类体系

3.1 三类核心变量

在工业建模中，变量按其在控制回路中的角色分为三类：

┌─────────────────────────────────────────────────────────────┐
│                      变量分类体系                             │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│   ┌──────────────┐    ┌──────────────┐    ┌──────────────┐  │
│   │   控制变量    │    │    扰动变量    │    │   被控变量    │  │
│   │ (Manipulated)│    │ (Disturbance)│    │ (Controlled) │  │
│   └──────┬───────┘    └──────┬───────┘    └──────┬───────┘  │
│          │                   │                   │          │
│          ▼                   ▼                   ▼          │
│   我们可以主动              我们无法控制          我们想要       │
│   调节的参数                但会影响结果         控制的目标      │
│                                                             │
│   例：反应温度设定值         例：环境温度          例：产品纯度    │
│       搅拌速度               原料成分波动            转化率     │
│       进料流量               设备老化程度             产量      │
│                                                             │
└─────────────────────────────────────────────────────────────┘

3.2 变量类型详解

控制变量（Manipulated Variables, MV）

定义： 操作人员或控制系统可以直接调节的输入参数。

特征：

可主动改变
通常有明确的操作范围
是工艺优化的主要抓手

常见示例：

行业	控制变量示例
化工	反应温度、压力、搅拌速度、催化剂用量
食品	杀菌温度、保温时间、配料比例、干燥风速
制药	升温速率、保温时间、冷却速度、pH设定值
冶金	加热功率、冷却水流量、轧制速度

在建模中的角色：

作为 X 变量的核心组成部分
VIP 分析的重点关注对象
工艺优化的直接操作对象

扰动变量（Disturbance Variables, DV）

定义： 影响过程输出但无法（或难以）主动控制的变量。

特征：

客观存在，难以人为干预
可能随时间变化
是模型鲁棒性需要考虑的因子

常见示例：

类型	扰动变量示例	应对策略
原料类	原料批次差异、含水率波动、杂质含量	入厂检验、前馈控制
环境类	环境温度、湿度、大气压力	环境补偿、空调控制
设备类	设备磨损、催化剂活性衰减、换热器结垢	定期维护、在线校正
操作类	操作员差异、交接班影响	SOP标准化、培训

在建模中的角色：

作为 X 变量的补充
帮助解释模型残差
识别"不可控"的变异来源

被控变量（Controlled Variables, CV）

定义： 我们希望控制在目标范围内的过程输出或质量指标。

特征：

是过程的结果
通常有明确的质量标准
是模型预测的目标（Y）

常见示例：

行业	被控变量示例
化工	产品纯度、转化率、选择性、副产物含量
食品	水分含量、色泽、口感评分、微生物指标
制药	有效成分含量、溶出度、杂质谱
材料	拉伸强度、硬度、表面光洁度

在建模中的角色：

作为 Y 变量（目标变量）
模型预测和优化的对象
评估模型性能的核心指标

3.3 变量分类决策树

flowchart TD
    Start([开始分类]) --> Q1{"`这个变量是输出结果
    还是输入参数？`"}
    Q1 -- 输出结果 --> CV["`**被控变量 CV**
    = Y变量`"]
    Q1 -- 输入参数 --> Q2{"`我们能主动调节
    这个参数吗？`"}
    Q2 -- 可以调节 --> MV["`**控制变量 MV**
    = X变量`"]
    Q2 -- 无法调节 --> DV["`**扰动变量 DV**
    = X变量`"]
    
    style CV fill:#f9f2f4,stroke:#d6b656,stroke-width:2px
    style MV fill:#e1f5fe,stroke:#6da8d6,stroke-width:2px
    style DV fill:#f5f5f5,stroke:#999999,stroke-width:2px

3.4 变量分类实例

场景：化工反应釜批次控制

变量名	变量类型	分类理由	建模角色
反应温度设定值	控制变量	DCS可调节	X
反应压力	控制变量	通过阀门调节	X
搅拌转速	控制变量	变频器控制	X
催化剂用量	控制变量	配料时确定	X
原料批次	扰动变量	由采购决定	X
原料含水率	扰动变量	自然波动	X
环境温度	扰动变量	无法干预	X
产品转化率	被控变量	过程结果	Y
产品选择性	被控变量	质量指标	Y

四、场景建模实战

4.1 建模前准备

数据整理清单

## 建模前检查清单

### 数据完整性
- [ ] 样本量 ≥ 30（PLS最低要求）
- [ ] X变量数 < 样本数/2（避免过拟合）
- [ ] 无严重缺失值（<10%）
- [ ] 时间戳对齐正确

### 变量确认
- [ ] 控制变量已识别并标记
- [ ] 扰动变量已识别并标记
- [ ] 被控变量（Y）已明确
- [ ] 变量单位统一

### 业务理解
- [ ] 了解正常工况范围
- [ ] 了解常见异常模式
- [ ] 明确建模目标（预测/优化/监控）

4.2 建模流程

flowchart TD
    A[收集数据] --> B[数据预处理]
    B --> C["探索性分析\nPCA"]
    C --> D[识别异常样本]
    D --> E[清洗数据]
    E --> F[建立PLS模型]
    F --> G["评估模型性能\nR²Y, Q²Y"]
    G --> H{模型满意?}
    H -->|否| I[调整变量/剔除异常]
    I --> F
    H -->|是| J["VIP分析\n识别关键变量"]
    J --> K[模型验证]
    K --> L[部署应用]

4.3 分步建模指南

Step 1: 数据导入与配置

导入数据：将整理好的Excel数据导入星途平台
设置标题行：标记变量名称行
配置X变量：
- 选择所有控制变量（MV）
- 选择重要扰动变量（DV）
配置Y变量：选择被控变量（CV）

Step 2: 探索性分析（PCA）

目的： 了解数据结构，识别异常样本

操作：

仅使用X变量创建PCA模型
查看得分图（Score Plot）
识别远离主群体的异常点
查看T²和SPE图，标记统计异常

解读：

正常批次应聚集在主成分空间的核心区域
远离群体的点需要调查原因
结合业务知识判断是否剔除

Step 3: 建立PLS回归模型

操作：

配置X（控制+扰动）和Y（被控）
点击"Fit"训练模型
查看模型指标：
- R²Y：拟合优度
- Q²Y：预测能力（>0.5可接受，>0.9优秀）

诊断：

如果Q²Y < 0.5：检查变量选择、增加样本量
如果R²Y高但Q²Y低：过拟合，减少潜变量数

Step 4: VIP分析与变量筛选

目的： 找出对Y影响最大的X变量

操作：

查看VIP图
识别VIP > 1的关键变量
考虑剔除VIP < 0.5的变量
重新建模验证

业务解读：

VIP高的控制变量是工艺优化的重点
VIP高的扰动变量需要加强监控

Step 5: 模型验证

内部验证：

交叉验证Q²Y
检查残差分布

外部验证（如有条件）：

用新收集的数据测试
对比预测值与实际值

4.4 典型场景建模案例

案例：发酵过程优化

场景描述：

产品：某氨基酸发酵
目标：提高产物浓度（Y）
周期：48小时批次

变量分类：

类型	变量	说明
控制变量	温度设定、pH设定、搅拌速度、通气量	DCS控制
扰动变量	种子批次、培养基批次、环境温度	记录但不可控
被控变量	产物浓度、转化率	离线检测

建模结果：

R²Y = 0.92, Q²Y = 0.85
VIP > 1的关键变量：pH设定、通气量、温度设定
发现：pH控制精度对产物浓度影响最大

优化建议：

升级pH控制系统，提高控制精度
建立pH前馈补偿模型
预计产物浓度提升8-12%

五、工具辅助挑选变量

5.1 变量筛选工具箱

在星途平台中，可以借助以下工具辅助变量挑选：

工具1: 相关性分析

用途： 识别X变量间的共线性

操作：

使用热力图查看X变量间相关性
识别|r| > 0.8的高度相关变量对
保留其中一个，剔除冗余变量

示例：

如果"反应温度"和"反应器壁温"相关性0.95
→ 只保留"反应温度"（更直接可控）

工具2: PCA载荷分析

用途： 理解变量间的内在结构

操作：

查看PCA载荷图（Loading Plot）
识别聚在一起的变量组（代表相似信息）
从每组中选择最具代表性的变量

工具3: VIP迭代筛选

用途： 逐步优化变量集

流程：

第1轮：所有变量 → 计算VIP
第2轮：剔除VIP<0.5的变量 → 重新建模
第3轮：检查Q²Y变化
      ↓
   如果Q²Y下降<5%：接受简化模型
   如果Q²Y下降>10%：恢复部分剔除的变量

工具4: 变量重要性排序表

综合评估框架：

变量	VIP	可控性	测量成本	综合评分	建议
温度	1.8	高	低	⭐⭐⭐⭐⭐	保留
压力	1.5	高	低	⭐⭐⭐⭐⭐	保留
原料批次	0.3	低	中	⭐⭐	剔除
环境湿度	0.4	低	高	⭐	剔除

5.2 变量筛选决策流程

flowchart TD
    Start([开始变量筛选]) --> Step1["`**1. 收集所有候选变量**
    (控制+扰动)`"]
    Step1 --> Step2["`**2. 相关性分析**
    剔除高度冗余变量`"]
    Step2 --> Step3["`**3. 建立初始PLS模型**
    计算VIP`"]
    Step3 --> Step4["`**4. 迭代剔除低VIP变量**
    VIP < 0.5`"]
    Step4 --> Step5{"`**5. 验证简化模型性能**
    Q²Y是否可接受？`"}
    
    Step5 -- "Q²Y下降 < 5%" --> Accept["`**接受简化模型**
    输出最终变量`"]
    Step5 -- "Q²Y下降 > 10%" --> Reject["`**恢复部分变量**
    重新验证`"]
    Reject -.-> Step3

5.3 变量筛选最佳实践

DO：

✅ 优先保留控制变量（可优化）
✅ 保留VIP高且易测量的变量
✅ 保留业务上"常识上重要"的变量
✅ 用交叉验证检验简化模型

DON'T：

❌ 只看VIP，完全忽略业务知识
❌ 一次剔除太多变量
❌ 剔除VIP低但成本也低的变量
❌ 在样本量很小时过度筛选

六、常见问题与最佳实践

6.1 常见问题解答

Q1: 样本量不够怎么办？

A:

最低要求：样本数 > X变量数

理想情况：样本数 ≥ 3 × X变量数

如果不够：

减少X变量（优先剔除VIP低的）

延长数据收集周期

考虑使用PCA先降维

Q2: 如何处理缺失值？

A:

缺失<5%：用均值/中位数填补

缺失5-20%：用插值或回归预测填补

缺失>20%：考虑剔除该变量或样本

星途平台支持多种缺失值处理策略

Q3: 控制变量和扰动变量的界限模糊怎么办？

A:

判断标准：当前技术/成本条件下能否主动调节

例：环境温度理论上可控（空调），但成本过高→视为扰动

在模型中两者都是X，区别仅在于优化策略

Q4: 模型在新数据上表现不好怎么办？

A:

检查新数据是否在训练数据范围内（外推风险）

检查是否有新的扰动因素出现

考虑模型更新（增量学习或重新训练）

Q5: 如何向管理层汇报建模结果？

A:

避免技术术语，聚焦业务价值

用具体数字："优化后预计提升产量X%"

展示可视化：得分图、VIP图

给出明确的行动建议

6.2 建模成功 checklist

## 项目交付检查清单

### 模型质量
- [ ] Q²Y > 0.5（最低门槛）
- [ ] R²Y - Q²Y < 0.2（避免过拟合）
- [ ] 残差无明显模式
- [ ] 关键变量VIP > 1

### 业务验证
- [ ] 关键变量符合工艺常识
- [ ] 异常样本有合理解释
- [ ] 模型预测误差在可接受范围
- [ ] 已验证至少一批独立数据

### 文档完整
- [ ] 变量分类清单
- [ ] 数据收集方法说明
- [ ] 模型性能报告
- [ ] 应用建议与风险提示

6.3 持续改进建议

模型生命周期管理：

第1-2月：模型建立与验证
    └── 收集数据、建立初始模型
    └── 内部验证、参数调优

第3-6月：试运行与优化
    └── 小范围试用
    └── 收集反馈、修正问题

第6-12月：正式部署
    └── 全面应用
    └── 建立监控机制

第12月后：定期维护
    └── 每季度评估模型性能
    └── 数据漂移检测
    └── 必要时重新训练

附录：快速参考卡

变量分类速查表

问题	控制变量	扰动变量	被控变量
能否主动调节？	✅ 能	❌ 不能	N/A（是结果）
在模型中的角色	X	X	Y
优化价值	高（直接操作）	中（监控预警）	目标
示例	温度设定值	环境温度	产品纯度

模型选择速查表

场景	推荐模型	关键指标
只有X，探索结构	PCA	R²X, 得分图
X→Y预测（连续）	PLS	R²Y, Q²Y, VIP
X→Y分类（离散）	PLS-DA	Accuracy, F1, AUC

VIP解读速查表

VIP值	重要性	建议
> 1.5	非常重要	重点关注
1.0-1.5	重要	保留
0.5-1.0	一般	可保留
< 0.5	不重要	考虑剔除

本文档是星途数据洞察平台的配套指南，结合实际工业场景，帮助用户系统性地开展数据建模工作。