业务场景中的数据分析需求有哪些
• 描述能力,用数据进行描述的能力(业务指标,统计方法)
• 预测能力,预测用户的画像,销售预测,库存预测,预测性维护
• 分析能力,了解原因,特征可解释性
• 自动化,7*24自动工作,持续产生作用(不是一次性)
Kraljic模型(数据驱动采购定位)
战略物资(Strategic Items)
对产品生产流程至关重要的采购项目,往往由于供给稀缺或运输困难而具有较高的供应风险
买卖双方地位: 力量均衡,相互依赖性较高
采购战略推荐: 战略联盟,紧密联系,供应商尽早介入,共同创造,并充分考虑垂直整合,关注长期价值
瓶颈物资(Bottleneck Items)
只能由某一特定供应商提供、运输不便、财务影响较低的采购项目
买卖双方地位: 卖方主动,相互依赖性一般。
采购战略推荐: 数量保险合同,供应商管理库存,确保额外库存,寻找潜在供应商
RFM用户价值模型
RFM指标:
Recency,最近一次消费时间间隔
Frequency,消费频率,一段时间(比如1年)内的消费次数
Monetary,消费金额,一段时间(比如1年)内的消费金额
比如今天8月22日,用户A在商店里购买了商品,上一次购买是8月15日,请问Recency=?
每个指标越大=>用户价值越高,用3个指标作为XYZ坐标轴,将空间分成8个部分进行分析
智能供应链
供应链数据探索
1)是否有缺失字段 => 数据补全
2)这些特征之间的相关性如何 => 热力图呈现
3)对于销售额进行探索(对应 Sales per customer)
按照不同的Market, Order Region
按照不同的Category Name
按照不同的时间维度(年,月,星期,小时)的趋势
Product Price与Sales per customer 相关性如何
使用RFM对用户进行分层管理
对欺诈行为(fraud)进行预测
对于欺诈订单进行预测,即Order Status='SUSPECTED_FRAUD'
对销售业绩(Sales)进行预测
3)对于销售额进行探索(对应 Sales per customer)
按照不同的Market, Order Region
按照不同的Category Name
按照不同的时间维度(年,月,星期,小时)的趋势
Product Price与Sales per customer 相关性如何
GBDT与XGBoost的区别
GBDT 是机器学习算法,XGBoost 是算法的工程实现
XGBoost加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力
GBDT 在模型训练时只使用了代价函数的一阶导数信息,XGBoost 对代价函数进行二阶泰勒展开,可以同时使用一阶和二阶导数
传统 GBDT 在每轮迭代时使用全部的数据,XGBoost 则采用了与随机森林相似的策略,支持对数据进行采样
传统的 GBDT 没有设计对缺失值进行处理,XGBoost 能够自动学习出缺失值的处理策略