用户数据分析理论与最佳实践 | 青训营笔记

89 阅读4分钟

这是我参与「第四届青训营 」笔记创作活动的第3天

为什么要做用户数据分析,随着商业化竞争越来越激烈,用户需求和精细化运营是企业竞争的关键核心,通过数据分析来进行相应的商业决策,以此来驱动用户增长。
数据分析的三个要素分为:可视化,分析工具,数据源,如图所示: image.png

1.埋点(数据是什么)
埋点数据是什么:埋点数据是指上报的记录着出发的原因和状态信息的日志数据,按照上报方来看,可以划分为服务端埋点和客户端埋点,按照上报形式,可以划分为“代码埋点”、“可视化全埋点”。

2.埋点包含哪些要素
埋点的要素主要分为如下七个方面:who when where how what how much
比如某用户ID在某时某刻充值了500点券就包含了上述七个要素。 常见的分析工具: SQL、Excel、编程、可视化查询、人群圈选、行为分析、波动归因分析

数据表与SQL:

表的基本构成:表名、表字段、表字段类型

SQL: 结构化查询语言,用来操作标的语言。细分为DDL(数据定义语言)和DML(数据操纵语言)等。

用户生命周期如下图所示:

graph TD
获取--> 激活-->留存 -->收入-->自传播

名词解释:

激活CPA:平均获取1个新增设备花费的成本

新增CPA:平均获取1个新增账号花费的成本

次留:当天新增的用户有少比例在次日又活跃了

2日LTV:平均每个用户前几天带来的收入

2日ROI:2日LTV/新增CPA

数据分析的常见问题:

  • 上游数据质量不高
  • 不验证就全量上线
  • 优化策略短期上升而长期有损
  • 过分挖掘用户的数据信息,不注重隐私保护

为什么要用机器学习

人工智能时代已经到来: 人工智能的成果应用在个性化推荐,机器翻译,人脸识别等各个赛道,具有成熟的数据供应链路。

大数据成为热议的内容: 数据多产生快,形式杂,组织乱,亟需提高数据处理数学模型的泛化能力。

解决实际的业务决策问题: 数据价值,机器学习把无序的数据变成有用的商业信息,从数据中自动分析获得模型,并利用模型对位置数据进行预测

机器学习的标准流程

graph TD
原始数据 --> 数据探测 --> 特征工程 --> 构建数据集-->建模调参-->模型评估

机器学习的算法有哪些:
监督与非监督学习--取决于训练是否需要人类的监督;监督学习是带有数据标注的学习;半监督学习是带有部分数据标注的机器学习方法;
批量/在线学习 -- 取决于系统是否能持续地从数据流中学习并更新
模型学习--取决于系统是直接把新数据与旧数据比较,还是通过建模来预测

算法的问题主要有以下两种

1.过拟合 意味着模型可能过于复杂,将一些噪音,异常也进行了学习。解决方法:构造验证集,进行数据集的扩增;改进模型的构造,可能因为数据集太少或者模型过于复杂;进行正则化;通过dropout修改隐藏神经元的个数来防止网络的过拟合;进行多任务学习,隐层参数的硬共享和软共享。

2.欠拟合 解决方法:改进模型的能力。

数据问题具体表现为:

1.训练数据太少

2.训练数据不具备代表性

3.数据本身质量很差

4.选取的特征没有相关性

在大数据场景下,对资源的要求非常高,比如存储和算力。特征工程是将原始数据转化成更好的表达问题本质的特征的过程。特征工程 意义:数据和特征决定了机器学习的上线,而模型和算法知识只是逼近这个上限而已。

创造新的特征是一件非常困难的事情,需要丰富的专业知识和大量的时间。机器学习的本质就是特征工程。 --Andrew Wu

个人思考与总结

大数据场景下的用户数据分析需要集合大量的数据资源,需要强大的数据中心,分布式架构资源管理及调度进行支持。另外,用户数据分析更需要综合有价值的商业分析来进行针对性的思考,需要利用数据可视化的手段来进行详细深入的数据特征的挖掘分析,来构建相应的数学模型。