这是我参与8月更文挑战的第13天,活动详情查看:8月更文挑战
数据人员如何创造价值
-
构建合理的指标体系/模型
指标体系:通用的规则+针对具体业务特定规则
模型:业务模型、数据挖掘模型 -
通过报表/数据看板的方式 - 对数据进行监控 + 制定相应的监控规则 - 根据监控结果实时调整策略
-
将获取的内容进行整合,输出完整的分析报告/调整相应的策略,继续追踪调整后的结果,真正指导业务的发展
-
基于历史数据和业务背景构建指标体系或者模型
-
基于指标体系,监控线上业务数据并制定相应的监控规则
-
输出数据分析报告/提供可执行策略,推动业务的发展
完整的指标体系构建
要构建一套指标体系,整体思路是什么?
纵向 + 横向
纵向:梳理 分析问题 整个流程
电商产品 - 用户从进入网站到最终下单的整个流程
工具类产品 - 用户使用过程中的体验以及用户流失情况
横向拓展不同的维度:
基于用户画像的人群分类
根据不同业务背景的时间拓展以及业务线的划分
用户行为的核心节点有哪些?如何有针对性地设计指标?
纵向分析的过程
互联网C端用户 - 核心节点:新增、活跃、留存/流失 - 纵向设计出很多指标,主要是绝对数量和百分比
新增用户:指标新增用户数量、新增用户留存率、新增用户活跃率
活跃用户:指标活跃用户数量、活跃用户中的新增用户数量、活跃用户中的老用户数量
老用户:老用户数量、老用户流失率、老用户唤醒率
流失用户:流失用户数量、流失用户与新增用户比率
从新增到流失整个流程指标的构建 - 看出哪个环节最终活跃用户数增加了或者减少了
对于活跃用户,应该如何进行相应的指标设计及路径分析?
活跃用户 - 活跃行为 - 提高用户体验
不同类型的产品 - 相应的细分设计
电商产品 - 来访用户到用户完成订单的整个流程
有了明确的用户行为路径及相关指标后,如何进一步分析?
横向分析 - 同一指标,不同维度进行拓展 - 时间维度、用户维度
针对时间维度的分析,需要注意的点有哪些?
列举常用的用户维度拓展方法
用户所在地:城市、省份
用户基本属性:年龄、性别、职业
使用设备:终端类型、客户端版本、厂商、机型
新老用户:
新用户:用户来源渠道 - 自然新增用户、活跃新增用户、广告新增用户
老用户:用户生命周期 - 有效用户、活跃用户、忠诚用户、沉睡用户、流失用户
XXX最近有所下降,如何进行分析?
梳理路径 - 确定对比的指标 - 选取对比的时间维度 - 针对问题环节拓展用户维度
数据监控及报表设计
现在需要监控数据并设计相应的报表,应该考虑哪些问题?
看什么、怎么看、给谁看
看什么 - 基于前面分析好的指标体系 - 对比分析【同比、环比】
怎么看 - 报表看板、邮件发送
给谁看 - 领导层、业务层、客户层
领导层:核心指标数据 - 最直观的展现方法 - 变化趋势
业务层:监控和分析 - 数据要全面 - 各个维度都展现出来 - 实时 - 波动/异常 - 第一时间通知业务方排查
客户端:针对要达到的目标 针对性的展示相关数据
设计一份优质的数据分析报告
如何提高数据分析报告的质量?
自上而下的分析过程 - 明确整体分析思路 - 开始设计报告前整理出一个基本的框架 - 再对各个维度进行拆解,确定核心指标 - 数据提取、分析以及可视化操作
结论先行 - 核心问题 - 信息量
基于互联网大数据的应用
AB测试
-
简述AB测试
评估模型/项目 效果
App/PC 多个版本 - 同一时间维度,组成成分相同的访客群体随机这些版本 - 收集各群体用户体验数据和业务数据 - 评估最好的版本
AB测试整个过程:试验分组、进行试验、分析结果 -
介绍常用的AB测试的分组方法
- 基于设备号、用户唯一标识的尾号、其他指标 - 尾号为奇/偶
- 基于固定的hash函数 - 用户唯一标识进行Hash取模、分桶 - 将用户均匀分配至若干个试验桶中 - 进一步将用户打散,提高分组效果
-
面对多个试验并行的情况,如何保证分组的合理性?
所有用户、所有试验前 - 划分为不同的域 - 不同域之间 用户相互独立、交集为空
重要试验 - 单独划分一部分用户 - 独占域
同时进行多组AB测试的域 - 共享域
分层 - 每个试验 单独一层 - 下一层进行试验时,将上一层试验各个分组的用户打散,保证用户随机性 不要超过7个试验同时进行
- 如何充分证明AB测试分组的随机性?
正交、AA测试
AB - 6:4
A中划分20%进行AA测试
验证结果时,保证AA测试通过 - 分组的合理性 - AB测试是否通过 - 简述AB测试背后的理论支撑
中心极限定理 - 数据量足够大,样本均值近似服从整体分布 - 结合假设检验 - 推翻/接受原假设
用户画像
- 用户画像的数据源有哪些?
用户基本属性数据和用户行为数据 - 获取到用户画像数据后,如何加工呢?
- 分析计算 - 最近一段时间的消费金额、消费频次等 - 获得其活跃度及相应偏好
- 建立相应的数据挖掘模型 - 预测用户基本属性
- 如何利用标签池中的数据,根据用户画像进行相应的分析?
- 通过标签池中的数据刻画需要的某一特征 - 基于不同属性筛选刻画出对应用户群体
完整的数据挖掘项目流程
- 分析问题,明确目标
- 模型可行性分析
- 在建模之前,需要从哪些方面分析可行性?
KPI - 要达到的准确率、召回率、历史数据量 - 模型是否可行
- 在建模之前,需要从哪些方面分析可行性?
- 选取模型
- 选择变量
- 常见的变量分类方法有哪些?
T+1变量:前一天/更早的数据 - 历史数据 - 时效性不高
实时变量:短时间内获取的最新数据
- 常见的变量分类方法有哪些?
- 特征工程
- 在数据挖掘项目中特征工程包括哪些方面?
- 验证逻辑
因果关系倒置
忽略模型上线后变量计算的时效性
取数过程中出现错误 - 缺失值处理 - 符合逻辑、确保缺失值有一定意义的前提下可不做处理
- 特定值表示
- 统计插值
- 模型插值:SKNN - 参考最临近的k个值进行填补
- 异常值处理 - 业务逻辑在取数计算过程中是否出现错误
统计方法:3σ、盒形图、分位数
模型方法:iForest(孤立森林)
常见异常值处理方法:
- 删除异常数据所在的记录 - 将异常值记为缺失值 - 缺失值填补的方法
- 验证逻辑
- 在数据挖掘项目中特征工程包括哪些方面?
- 建立模型&效果评估
- 模型上线&迭代
- 在模型上线前以及上线后,都需要做哪些工作? 模型封装成特定的模型文件 - 机器学习/数据挖掘模型打包成PMML文件