这是我参与「第四届青训营 」笔记创作活动的第3天
为什么要做用户数据分析,随着商业化竞争越来越激烈,用户需求和精细化运营是企业竞争的关键核心,通过数据分析来进行相应的商业决策,以此来驱动用户增长。
数据分析的三个要素分为:可视化,分析工具,数据源,如图所示:
1.埋点(数据是什么)
埋点数据是什么:埋点数据是指上报的记录着出发的原因和状态信息的日志数据,按照上报方来看,可以划分为服务端埋点和客户端埋点,按照上报形式,可以划分为“代码埋点”、“可视化全埋点”。
2.埋点包含哪些要素
埋点的要素主要分为如下七个方面:who when where how what how much
比如某用户ID在某时某刻充值了500点券就包含了上述七个要素。
常见的分析工具:
SQL、Excel、编程、可视化查询、人群圈选、行为分析、波动归因分析
数据表与SQL:
表的基本构成:表名、表字段、表字段类型
SQL: 结构化查询语言,用来操作标的语言。细分为DDL(数据定义语言)和DML(数据操纵语言)等。
用户生命周期如下图所示:
graph TD
获取--> 激活-->留存 -->收入-->自传播
名词解释:
激活CPA:平均获取1个新增设备花费的成本
新增CPA:平均获取1个新增账号花费的成本
次留:当天新增的用户有少比例在次日又活跃了
2日LTV:平均每个用户前几天带来的收入
2日ROI:2日LTV/新增CPA
数据分析的常见问题:
- 上游数据质量不高
- 不验证就全量上线
- 优化策略短期上升而长期有损
- 过分挖掘用户的数据信息,不注重隐私保护
为什么要用机器学习
人工智能时代已经到来: 人工智能的成果应用在个性化推荐,机器翻译,人脸识别等各个赛道,具有成熟的数据供应链路。
大数据成为热议的内容: 数据多产生快,形式杂,组织乱,亟需提高数据处理数学模型的泛化能力。
解决实际的业务决策问题: 数据价值,机器学习把无序的数据变成有用的商业信息,从数据中自动分析获得模型,并利用模型对位置数据进行预测
机器学习的标准流程
graph TD
原始数据 --> 数据探测 --> 特征工程 --> 构建数据集-->建模调参-->模型评估
机器学习的算法有哪些:
监督与非监督学习--取决于训练是否需要人类的监督;监督学习是带有数据标注的学习;半监督学习是带有部分数据标注的机器学习方法;
批量/在线学习 -- 取决于系统是否能持续地从数据流中学习并更新
模型学习--取决于系统是直接把新数据与旧数据比较,还是通过建模来预测
算法的问题主要有以下两种
1.过拟合 意味着模型可能过于复杂,将一些噪音,异常也进行了学习。解决方法:构造验证集,进行数据集的扩增;改进模型的构造,可能因为数据集太少或者模型过于复杂;进行正则化;通过dropout修改隐藏神经元的个数来防止网络的过拟合;进行多任务学习,隐层参数的硬共享和软共享。
2.欠拟合 解决方法:改进模型的能力。
数据问题具体表现为:
1.训练数据太少
2.训练数据不具备代表性
3.数据本身质量很差
4.选取的特征没有相关性
在大数据场景下,对资源的要求非常高,比如存储和算力。特征工程是将原始数据转化成更好的表达问题本质的特征的过程。特征工程 意义:数据和特征决定了机器学习的上线,而模型和算法知识只是逼近这个上限而已。
创造新的特征是一件非常困难的事情,需要丰富的专业知识和大量的时间。机器学习的本质就是特征工程。 --Andrew Wu
个人思考与总结
大数据场景下的用户数据分析需要集合大量的数据资源,需要强大的数据中心,分布式架构资源管理及调度进行支持。另外,用户数据分析更需要综合有价值的商业分析来进行针对性的思考,需要利用数据可视化的手段来进行详细深入的数据特征的挖掘分析,来构建相应的数学模型。