大数据可视化理论与案例分析| 青训营笔记

129 阅读2分钟

这是我参与「第四届青训营 」笔记创作活动的第4天  用户数据分析理论与最佳实践| 青训营笔记 字节跳动青训营大数据专场: 字节跳动青训营大数据专场:Day 4

一:大数据可视化理论与案例分析

二:课程目录

  01. 定义 02.原理 03.案例 04.学习

三:

1.1:什么是可视化?What is Visualization

Visualization is any technique for creating images disgrams or animations to communicate a message.

1.2:什么是数据可视化?What is Data Visualization?

1.3:数据可视化作用/The Role of Data Visualization?

Explore the truth of the data(数据探索)

Promote communication and exchange(媒介沟通)

2.1 data definition

Data is defined as a collection of meaningful facts which can be stored and processed by computers or humans

2.1.2 数据和数据集

2.1.3 表格

2.1.4 多维表格

2.1.5 网络图与树图

2.1.6 场

2.1.7 几何数据

2.1.8 属性分类

2.2 编码 encode

2.2.1 认知

2.2.2 图元

2.2.3 通道

2.2.4 编码/encode

2.2.6 举例/编码有效性

3 交互

4 学习推荐书籍。。。。。 ————————————————————————————————————————— 补昨天的 3.1数据分析的流程与案例

3.1分析流程:

明确目的-经验猜想-数据准备-数据分析-产品报告和优化建议-验证-全量实施和总结复盘

3.1分析思路

用户生命周期——获取、激活、留存、收入、自传播

3.2 案例的获取——广告投放-留次激活获取账号所需成本 ———————————————————————————————————————— 今日份学习关于HBase的补充:

优势:稀疏表友好,不存储缺省列,支持动态新增列类型、支持保存多版本数据、支持只读部分column family 的数据,避免读取不必要的数据,支持数据的规模相比传统关系型数据库更高,更易水平扩展,支持rowkey字典序批量扫描数据

劣势:每条数据都要冗余存储行列信息 不支持二级索引 只能通过rowkey 索引 查询效率依赖rowkey设计 不支持数据类型一律按字节数组存储 仅支持单行的原子性操作 无跨行事务保障

HBASE在大数据生态的定位

对海量数据支持强一致、近实时的读写性能,支持快速的ad-hoc分析查询任务

支持字典序批量扫描大量数据,支持只读取部分列族的数据

存储大规模任务的中间/最终计算结果