这是我参与「第四届青训营 」笔记创作活动的第4天 用户数据分析理论与最佳实践| 青训营笔记 字节跳动青训营大数据专场: 字节跳动青训营大数据专场:Day 4
一:大数据可视化理论与案例分析
二:课程目录
01. 定义 02.原理 03.案例 04.学习
三:
1.1:什么是可视化?What is Visualization
Visualization is any technique for creating images disgrams or animations to communicate a message.
1.2:什么是数据可视化?What is Data Visualization?
1.3:数据可视化作用/The Role of Data Visualization?
Explore the truth of the data(数据探索)
Promote communication and exchange(媒介沟通)
2.1 data definition
Data is defined as a collection of meaningful facts which can be stored and processed by computers or humans
2.1.2 数据和数据集
2.1.3 表格
2.1.4 多维表格
2.1.5 网络图与树图
2.1.6 场
2.1.7 几何数据
2.1.8 属性分类
2.2 编码 encode
2.2.1 认知
2.2.2 图元
2.2.3 通道
2.2.4 编码/encode
2.2.6 举例/编码有效性
3 交互
4 学习推荐书籍。。。。。 ————————————————————————————————————————— 补昨天的 3.1数据分析的流程与案例
3.1分析流程:
明确目的-经验猜想-数据准备-数据分析-产品报告和优化建议-验证-全量实施和总结复盘
3.1分析思路
用户生命周期——获取、激活、留存、收入、自传播
3.2 案例的获取——广告投放-留次激活获取账号所需成本 ———————————————————————————————————————— 今日份学习关于HBase的补充:
优势:稀疏表友好,不存储缺省列,支持动态新增列类型、支持保存多版本数据、支持只读部分column family 的数据,避免读取不必要的数据,支持数据的规模相比传统关系型数据库更高,更易水平扩展,支持rowkey字典序批量扫描数据
劣势:每条数据都要冗余存储行列信息 不支持二级索引 只能通过rowkey 索引 查询效率依赖rowkey设计 不支持数据类型一律按字节数组存储 仅支持单行的原子性操作 无跨行事务保障
HBASE在大数据生态的定位
对海量数据支持强一致、近实时的读写性能,支持快速的ad-hoc分析查询任务
支持字典序批量扫描大量数据,支持只读取部分列族的数据
存储大规模任务的中间/最终计算结果