青训营 用户数据分析理论与最佳实践(基础篇)
概述
2022の夏天,半壶水响叮当的我决定充实一下自我
一、内容介绍
青训营
总述
在前面的课程中我们讲了很多技术层面的知识,而这些技术是如何服务于企业做数据分析的,同学们缺少一些场景来直观地感受。本课程的目的就是让同学们直观且系统地看一下企业是如何构建各种数据分析工具,以及分析人员是如何使用这些工具来做数据分析的。
本节课程分为两个部分,分别讲述数据分析偏基础的概览和进阶的机器学习的应用。
用户数据分析理论与最佳实践(基础篇)
用户数据分析简介
为什么要做用户数据分析
在企业竞争越来越激烈,获客成本越来越高的背景下,如何高效地优化产品和精细化投放运营是当前企业竞争的关键,而用户数据分析正是我们保持此竞争力的重要手段(难道还有别的手段?有,靠抄袭,靠砸钱),我们通过数据来驱动用户增长、降低成本和提高收益。
当下互联网的行情不太好,大家也知道,企业们也在“勒紧裤腰带过日子“,盲目扩张、砸钱抢市场的情况在当下会收敛很多。
什么是方法论
这里我仅指互联网行业,我的理解就是一些有经验的人,体系化的把这些做事的手段和思考进行抽象整合后,沉淀下来作为理论,而“后人”按照这个“套路”来执行就好了。学习方法论,能大大减少你去探索的成本。但是在这个互联网飞速发展的时期,这个套路有可能过时,所以大家需要保持敏锐,不要过于迷信某些方法论。
数据分析的各个环节
在真正进入到具体的分析案例之前,我们先来整体看一下,数据分析有哪些环节。
这里包含4个部分。数据源、分析工具、可视化以及贯穿全程的指标体系。
首先我们先看一下数据源,没有数据,我们的数据分析就无从谈起。数据源包括很多种,我们最常见的是埋点和业务DB中的数据以及二次加工的如统计和挖掘出的数据。
有了数据源,我们也不要着急马上去写sql查数,我们看一下有哪些工具来支持我们去做数据分析。企业提供了除了非常基础的sql(也算是一种编程)和代码编程外,还有很多好用的工具,比如可视化查询、分群圈选和当下热门的行为分析工具。
可视化这一块,其实并不是独立的部分,很多分析工具里集成了可视化的能力,但是为了方便同学们理解,我们单独拎出来这一块来讲解。
而指标体系是我们数据分析的脉络,我们做个各种分析其实都会围绕着指标体系来做。指标体系会在真正开始建设之前就进行规划,并在业务发展过程中不断完善。
接下来我们分别介绍一下各个环节。
指标体系
一句话介绍指标体系:结合业务战略目标和业务场景,系统化梳理构建的指标集合。我们构建的指标集合通常是分级的,以满足不同级别的人的数据使用需求。
我们以手游业务为例看一下指标体系是什么,当然这个例子不全,仅作为示意用。
这里除了常见的业务指标还有安全风控、服务质量相关的,比如外挂封禁账号数、应用crash率、fps等。整个指标体系所涵盖的指标数量在复杂的业务场景中,可能几百个。
那我们搭建指标体系有什么用途呢?这里我列了一些,大家可以先行体会一下:
- 衡量经营状况
- 统一口径和统一认知
- 团队牵引
- 支撑后续制定目标和衡量目标
- 发现问题
- 定位问题
近两年,企业们为了能更前置地促进业务发展,又引申出一个叫“北极星指标”(也叫第一关键指标)的概念。通过这个(也有可能不止1个)指标的牵引,来指引各部门抓住重心。
数据源
业务DB数据大家会比较熟悉,常见的是一些关系型数据,我们不展开讲了。这里我们详细讲一下埋点数据。
埋点数据是什么呢?它是指上报的记录着触发原因和状态信息的日志数据。按照上报方来看,可以划分为“服务端埋点”和“客户端埋点”。按照上报形式,可以划分为“代码埋点”、“可视化全埋点”。企业最常用的是代码埋点。
埋点包含哪些要素呢?who when where how what how_much。举个例子:“张三”于“北京时间2022年1月2号12点整”在“游戏商城”用“xx支付”的形式“充值”了“500元”钻石。那企业中埋点数据上报的格式是什么样呢?我们看下面这个例子:
{
"event_name":"game_purchase",
"event_time":1641776400,
"user_info":{
"user_id":"1111",
"role_id":"2222",
"device_id":"3333"
},
"params":{
"server_id":1001,
"item_id":123,
"amount":50000,
"platform":"game_mall",
"pay_type":"xx pay"
},
"location_info":{
"zone_area":"Asia/Shanghai"
},
"headers":{
"device_os":"android",
"app_version":"12.3.4",
"channel":"xxx",
"ip":"x.x.x.x",
"sys_language":"zh-CN",
"app_language":"zh-CN"
}
}
这里我们可以看到,除了上面那些参数外,还会上报很多其他属性,这些属性是我们极其常用的,所以企业内的sdk默认会采集上报。
了解了埋点的格式之后,那我们需要在什么时候上报呢?这个就跟具体的业务场景有关系了。你要分析什么数据就在对应的时机采集埋点数据。
分析工具
我们先整体看一下各工具的对比情况。同学内简单了解下即可。
分析工具这块我们主要讲一下最常用的sql和比较热门的行为分析工具。
数据表与SQL
表的基本构成:表名、表字段、表字段类型等。
SQL:结构化查询语言,用来操作表的语言。细分为DDL(数据定义语言)和DML(数据操纵语言)等。
在工作中,这些表的建模和查询sql是需要做精心优化的,以提升查询性能并减少资源浪费。
思考题:这里举个简单的例子,大家想一下sql怎么写。
表:用户登录日志表t
表字段:os,device_id,province,login_time,log_date
查询:筛选最近30天和AB省份,统计各个log_date、os的设备活跃数
回顾了sql之后,我们就要进一步引入指标和维度的概念,这个在可视化的时候需要用到。
理解指标和维度
指标是数据的量化统计,维度是数据分组的方式。
那大家思考一下:
- 上面的sql例子中维度是什么?指标是什么?
- 除了上面的去重数,你还能想到哪些常用的指标算子?
- 用户的付费金额、登录次数这类的数值,可以作为维度吗?
行为分析-事件分析
行为分析工具包括很多模型,我们把用户日常最高频使用的功能进行了固化,用户只需在界面配置自己要分析的埋点、属性筛选和分组项,即可在几秒内查询出数据结果。由于篇幅有限,这里我们仅介绍下企业最常用的事件分析。
我们可以看到,左侧是查询配置区,右侧是展示区。左侧我们可以配置指标、筛选项和分组项,分别对应了sql的select、where、group by。这个比较好理解。
数据可视化
先看一下常见的图表样式:
我们可以看到图表的样式很多,但也需要注意,选择什么样的样式是看怎么方便你去做数据洞察,不要仅为了花里胡哨而去使用这些图表。
思考题:除了这些,你还能想到其他哪些图表类型。
可以参考开源可视化图表库Echarts
数据分析的流程和案例
分析流程和分析思路
一个完整的数据分析流程是这样的:
暂时无法在飞书文档外展示此内容
接下来我们以企业应用经营过程中用户的生命周期为视角,看下可以做数据分析的环节。生命周期我们此处使用AARRR模型更方便大家理解。
暂时无法在飞书文档外展示此内容
案例
Acquisition(获取) -广告素材分析
数据如下:
一些指标概念:
激活CPA:平均获取1个新增设备花费的成本
新增CPA:平均获取1个新增账号花费的成本
次留:当天新增的用户有少比例在次日又活跃了
3留:当天新增的用户有少比例在第3日又活跃了
2日LTV:平均每个用户前两天带来的收入
2日ROI:2日LTV/新增CPA
其他指标同理
通过这份数据,大家觉得应该优先加大哪个素材的推广力度呢?
Activation(激活)-新用户激活转化分析
这是一份漏斗转化数据。
如果某一步出现很低的转化率,你有什么优化建议吗?
Retention(留存)-新用户激活转化分析
这是一份游戏各玩法参与率的数据,你能得出什么结论?
数据分析常见的问题
- 上游数据质量不高
- 不验证就全量上线
- 优化策略短期有利而长期有损
- 过分挖掘用户信息,不注重用户隐私保护
总结
总结:
上半节课我们简单讲了下企业是如何使用各种分析工具来分析数据的,并一起看了一些案例,希望大家能有所收获。接下来我们看一下机器学习在企业实际应用场景中的实践。
思考题:
打开你手机的一款应用,你觉得哪些环节可以做数据分析,你觉得可能存在哪些优化点?
晚安玛卡巴卡
快乐暑假