这是我参与「第四届青训营」笔记创作活动的第3天

为什么要做用户数据分析，随着商业化竞争越来越激烈，用户需求和精细化运营是企业竞争的关键核心，通过数据分析来进行相应的商业决策，以此来驱动用户增长。
数据分析的三个要素分为：可视化，分析工具，数据源，如图所示：

1.埋点（数据是什么）
埋点数据是什么：埋点数据是指上报的记录着出发的原因和状态信息的日志数据，按照上报方来看，可以划分为服务端埋点和客户端埋点，按照上报形式，可以划分为“代码埋点”、“可视化全埋点”。

2.埋点包含哪些要素
埋点的要素主要分为如下七个方面：who when where how what how much
比如某用户ID在某时某刻充值了500点券就包含了上述七个要素。常见的分析工具： SQL、Excel、编程、可视化查询、人群圈选、行为分析、波动归因分析

数据表与SQL：

表的基本构成：表名、表字段、表字段类型

SQL： 结构化查询语言，用来操作标的语言。细分为DDL（数据定义语言）和DML（数据操纵语言）等。

用户生命周期如下图所示：

graph TD
获取--> 激活-->留存 -->收入-->自传播

名词解释：

激活CPA：平均获取1个新增设备花费的成本

新增CPA：平均获取1个新增账号花费的成本

次留：当天新增的用户有少比例在次日又活跃了

2日LTV：平均每个用户前几天带来的收入

2日ROI：2日LTV/新增CPA

数据分析的常见问题：

为什么要用机器学习

人工智能时代已经到来： 人工智能的成果应用在个性化推荐，机器翻译，人脸识别等各个赛道，具有成熟的数据供应链路。

大数据成为热议的内容： 数据多产生快，形式杂，组织乱，亟需提高数据处理数学模型的泛化能力。

解决实际的业务决策问题： 数据价值，机器学习把无序的数据变成有用的商业信息，从数据中自动分析获得模型，并利用模型对位置数据进行预测

机器学习的标准流程

graph TD
原始数据 --> 数据探测 --> 特征工程 --> 构建数据集-->建模调参-->模型评估

机器学习的算法有哪些：
监督与非监督学习--取决于训练是否需要人类的监督；监督学习是带有数据标注的学习；半监督学习是带有部分数据标注的机器学习方法；
批量/在线学习 -- 取决于系统是否能持续地从数据流中学习并更新
模型学习--取决于系统是直接把新数据与旧数据比较，还是通过建模来预测

算法的问题主要有以下两种

1.过拟合 意味着模型可能过于复杂，将一些噪音，异常也进行了学习。解决方法：构造验证集，进行数据集的扩增；改进模型的构造，可能因为数据集太少或者模型过于复杂；进行正则化；通过dropout修改隐藏神经元的个数来防止网络的过拟合；进行多任务学习，隐层参数的硬共享和软共享。

2.欠拟合 解决方法：改进模型的能力。

数据问题具体表现为：

1.训练数据太少

2.训练数据不具备代表性

3.数据本身质量很差

4.选取的特征没有相关性

在大数据场景下，对资源的要求非常高，比如存储和算力。特征工程是将原始数据转化成更好的表达问题本质的特征的过程。特征工程意义：数据和特征决定了机器学习的上线，而模型和算法知识只是逼近这个上限而已。

创造新的特征是一件非常困难的事情，需要丰富的专业知识和大量的时间。机器学习的本质就是特征工程。 --Andrew Wu

个人思考与总结

大数据场景下的用户数据分析需要集合大量的数据资源，需要强大的数据中心，分布式架构资源管理及调度进行支持。另外，用户数据分析更需要综合有价值的商业分析来进行针对性的思考，需要利用数据可视化的手段来进行详细深入的数据特征的挖掘分析，来构建相应的数学模型。

用户数据分析理论与最佳实践 | 青训营笔记