这是我参与「第四届青训营 」笔记创作活动的第29天
本次笔记重点内容
- 为什么做行业数据分析
- 数据分析环节
- 数据分析流程
- 机器学习概览
- 特征工程
- 聚类算法
- 聚类画像分析
为什么做行业数据分析?做数据分析有什么收益?
在企业竞争越来越激烈、获客成本越来越高的背景下,如何高效地优化产品和精细化投放运营是当前企业竞争的关键,而用户数据分析正是我们保持此竞争力的重要手段,我们通过数据来驱动用户增长、降低成本和提高收益。
数据分析的各个环节
指标体系
指标体系是结合业务战略目标和业务场景,系统化梳理构建的指标集合。我们构建的指标集合通常是分级的,以满足不同级别的人的数据使用需求。
指标是数据的量化统计,维度是数据的分组方式,口径是指这个数据是怎么算出来的。
搭建指标体系有什么用途呢?
- 衡量经营状况
- 统一口径和统一认知:便于后续沟通
- 团队牵引
- 支撑后续制定目标和衡量目标
- 发现问题
- 定位问题
埋点
什么是埋点数据?
它是指上报的记录着触发原因和状态信息的日志数据。按照上报方来看,可以划分为“服务端埋点”和“客户端埋点”;按照上报形式,可以划分为“代码埋点”、“可视化全埋点”。企业最常用的是代码埋点。
埋点有哪些要素?
who when where how what how_much。例如:“张三”于“北京时间2022年1月2号12点整”在“游戏商城”用“xx支付”的形式“充值”了“500元”钻石。
数据分析各个环节
常见分析工具
数据表和SQL
表的基本构成:表名、表字段、表字段类型等。SQL:结构化查询语言,用来操作表的语言。细分为DDL(数据定义语言)和DML(数据操纵语言)等。这些表的建模和查询sql是需要做精心优化的,以提升查询性能并减少资源浪费。
行为分析——事件分析
行为分析工具包括很多模型,我们把用户日常最高频使用的功能进行了固化,用户只需在界面配置自己要分析的埋点、属性筛选和分组项,即可在几秒内查询出数据结果。
数据可视化
数据分析的流程
分析思路
数据分析常见问题
- 上游数据质量不高,要对数据采集和清洗方面下功夫
- 不验证就全量上线
- 优化策略短期有利而长期有损,长期会导致用户的流失
- 过分挖掘用户信息,不注重用户隐私保护
机器学习
为什么要机器学习?
人工智能时代已经到来——个性化推荐、机器翻译、人脸识别,大数据成为热议的内容——数据多、产生快、形式杂、组织乱,急于解决实际的业务策略问题——业务需要从大数据中挖掘数据背后隐藏的价值。
什么是机器学习?
机器学习使得计算机在没有明确编码规则的情况下拥有自主学习能力。机器学习就是把无序的数据转换为有用的信息; 从数据中自动分析获得模型,并利用模型对未知数据进行预测。
标准流程
机器学习算法
- 监督/非监督学习——取决于训练是否需要人类的监督
- 批量/在线学习——取决于系统是否能持续从数据流中学习并更新
- 基于实例/模型学习——取决于系统是直接把新数据与旧数据比较还是通过建模来预测
挑战
- 过拟合(Overfitting):意味着算法可能过于复杂,不止学到了该学的规则,还将噪音、异常学到心里,使得无法很好预测新样本
- 欠拟合(Underfitting):意味着算法可能过于简单,没学到精髓
- 训练数据太少
- 训练数据不具备代表性
- 数据本身质量很差
- 选取的特征没有相关性
大数据场景下对资源的要求非常高,比如存储和算力。
特征工程
定义
机器学习的本质是特征工程,特征工程是将原始数据转化成更好的表达问题本质的特征的过程。
流程
数据理解
数据是什么样的形式?
- 结构化数据与非结构化数据
- 结构化数据:如一些以表格形式进行存储的数据
- 非结构化数据:就是一堆数据,类似于文本、报文、日志之类的
- 定量和定性数据
- 定量数据:指的是一些数值,用于衡量某件东西的数量
- 定性数据:指的是一些类别,用于描述某件东西的性质
数据预处理
数据清洗
缺失值、异常值、噪声等处理。
数据集成
获取数据过程中可能分散在各种载体中,需要融合到一致的数据存储库中
数据规约
拿到的数据过多且存在无用的数据,需要得到数据集的归约,它小得多,但仍接近地保持原数据的完整性
数据变换
数据变换包括对数据进行规范化,离散化,稀疏化处理,达到适用于挖掘的目的
特征构造
指从现有的数据中构造额外特征,能够更好地应用到预测模型中
特征选择
在实际项目中,可能会有大量的特征可使用,有的特征携带的信息丰富,有的特征携带的信息有重叠,有的特征则属于无关特征,要排除无效/冗余的特征,把有用的特征挑选出来作为模型的训练数据
聚类算法
聚类算法是机器学习中涉及对数据进行分组的一种算法,相同的组的数据之间有相似的属性或者是特征,不同组数据之间的属性或者特征相差就会比较大。
常用聚类特征
- 人口属性:性别、年龄、地域等
- 常用指标:活跃度、时长、消费次数等
- 消费偏好:用户使用不同功能的时长占比、点击占比,每天进入该app的启动方式等
常用聚类方法
| 聚类算法 | 优点 | 缺点 |
|---|---|---|
| 基于距离——K-means | 实现简单快速、聚出的类别相对均匀 | 受初始点选择影响较大、无法自定义距离、无法识别离群点、需要事先确定簇的数量 |
| 基于密度——DBSCAN | 可以识别离群点、对特殊分布效果好 | 聚出的类别欠均匀、受密度定义影响较大、不擅长处理密度不均的数据 |
| 层次聚类 | 对特殊分布效果好、类的层次关系具有一定价值 | 有时聚出的类别欠均匀、内存不友好 |
聚类画像分析
一个基于聚类的用户画像分析工具,以对用户群体进行标注及定位。
- 帮助运营分析师PM等洞察群体用户在站内的消费、投稿内容生态情况
- 研究用户与内容的关系和演变,理解业务增长的变化,制定用户与内容的增长策略
流程
应用场景
- 用户群体的兴趣偏好,帮助理解站内人群的结构
- 内容消费情况,帮助理解哪些内容更受欢迎
- 发现核心群体,基于其喜欢的内容,制定增长策略