数据分析1 | 青训营笔记

102 阅读5分钟

这是我参与「第四届青训营 」笔记创作活动的第12天

数据分析的各个环节

包含4个部分。数据源、分析工具、可视化以及贯穿全程的指标体系。

数据源。数据源包括很多种,最常见的是埋点和业务DB中的数据以及二次加工的如统计和挖掘出的数据。

分析工具。企业提供了除了非常基础的sql(也算是一种编程)和代码编程外,还有很多好用的工具,比如可视化查询、分群圈选和当下热门的行为分析工具。

可视化。很多分析工具里集成了可视化的能力,但是为了方便同学们理解,我们单独拎出来这一块来讲解。

指标体系。是数据分析的脉络,我们做个各种分析其实都会围绕着指标体系来做。指标体系会在真正开始建设之前就进行规划,并在业务发展过程中不断完善。

指标体系

一句话介绍指标体系:结合业务战略目标和业务场景,系统化梳理构建的指标集合。指标集合通常是分级的,以满足不同级别的人的数据使用需求。

以手游业务为例子,不全,仅作为示意用。

除了常见的业务指标还有安全风控、服务质量相关的,比如外挂封禁账号数、应用crash率、fps等。整个指标体系所涵盖的指标数量在复杂的业务场景中,可能几百个。

搭建指标体系的用途:

  • 衡量经营状况
  • 统一口径和统一认知
  • 团队牵引
  • 支撑后续制定目标和衡量目标
  • 发现问题
  • 定位问题

近两年,企业们为了能更前置地促进业务发展,又引申出一个叫“北极星指标”(也叫第一关键指标)的概念。通过这个(也有可能不止1个)指标的牵引,来指引各部门抓住重心。

数据源

业务DB数据,常见的是一些关系型数据

埋点数据。是指上报的记录着触发原因和状态信息的日志数据。按照上报方来看,可以划分为“服务端埋点”和“客户端埋点”。按照上报形式,可以划分为“代码埋点”、“可视化全埋点”。企业最常用的是代码埋点。

埋点包含who when where how what how_much。举个例子:“张三”于“北京时间2022年1月2号12点整”在“游戏商城”用“xx支付”的形式“充值”了“500元”钻石。

企业中埋点数据上报的格式如下所示:

{
   "event_name":"game_purchase",
   "event_time":1641776400,
   "user_info":{
       "user_id":"1111",
       "role_id":"2222",
       "device_id":"3333"
   },
   "params":{
       "server_id":1001,
       "item_id":123,
       "amount":50000,
       "platform":"game_mall",
       "pay_type":"xx pay"
   },
   "location_info":{
       "zone_area":"Asia/Shanghai"
   },
   "headers":{
      "device_os":"android",
      "app_version":"12.3.4",
      "channel":"xxx",
      "ip":"x.x.x.x",
      "sys_language":"zh-CN",
      "app_language":"zh-CN"
   }
}
复制代码

除了上面那些参数外,还会上报很多其他属性,这些属性是极其常用的,所以企业内的sdk默认会采集上报。

上报的时机跟具体的业务场景有关,你要分析什么数据就在对应的时机采集埋点数据。

分析工具

各工具的对比情况

数据表与SQL

表的基本构成:表名、表字段、表字段类型等。

SQL:结构化查询语言,用来操作表的语言。细分为DDL(数据定义语言)和DML(数据操纵语言)等。

在工作中,这些表的建模和查询sql是需要做精心优化的,以提升查询性能并减少资源浪费。

理解指标和维度

指标是数据的量化统计,维度是数据分组的方式。

行为分析-事件分析

行为分析工具包括很多模型,我们把用户日常最高频使用的功能进行了固化,用户只需在界面配置自己要分析的埋点、属性筛选和分组项,即可在几秒内查询出数据结果。由于篇幅有限,这里我们仅介绍下企业最常用的事件分析。

数据可视化

先看一下常见的图表样式:

选择什么样的样式是看怎么方便你去做数据洞察,不要仅为了花里胡哨而去使用这些图表。

数据分析的流程和案例

案例

Acquisition(获取) -广告素材分析

数据如下:

一些指标概念:

激活CPA:平均获取1个新增设备花费的成本

新增CPA:平均获取1个新增账号花费的成本

次留:当天新增的用户有少比例在次日又活跃了

3留:当天新增的用户有少比例在第3日又活跃了

2日LTV:平均每个用户前两天带来的收入

2日ROI:2日LTV/新增CPA

其他指标同理

Activation(激活)-新用户激活转化分析

这是一份漏斗转化数据。

Retention(留存)-新用户激活转化分析

数据分析常见的问题

  • 上游数据质量不高
  • 不验证就全量上线
  • 优化策略短期有利而长期有损
  • 过分挖掘用户信息,不注重用户隐私保护