Spark + ElasticSearch 构建电商用户标签系统实现精准 学习笔记
第3章 大数据环境搭建
3-1 作业讲解
3-2 virtualbox , vagrant 安装
3-3 virtualbox安装ubuntu
3-4 ubuntu系统的启动与验证
3-5 vagrant创建虚拟机环境
3-6 用vagrantfile进行详细设置
3-7 ubuntu安装docker、 docker-compose
3-8 Docker安装
3-9 docker-compose启动不了的原因
3-10 zsh shell辅助软件安装与配置
3-11 docker 和 docker-compose
3-12 大数据环境安装
3-13 大数据环境验证与测试
3-14 docker-compose.yml讲解
3-15 本章作业 文件
3-16 事先用docker建立es_network网络
3-17docker pull 加速
3-18 作业节 文件

第5章 数据同步
5-1 章介
5-2 sqoop简单介绍
5-3 数据同步架构的1.0版本
5-4 数据同步架构2.0及两个拓展问题的解决
5-5 Hive简介及架构
5-6 Hive实操(一)及docker 文件拷贝
5-7 Hive实操(二)及面试题讲解
5-8 Hive外部表介绍
5-9 sqoop 安装与配置
5-10 sqoop 安装及mysql 数据导入脚本
5-11 hiver-server中安装sqoop,替换apt源
5-12 sqoop 将mysql数据导入到hive
5-13 作业节 文件

第7章 指标算法及标签ETL
7-1 内容介绍及虚拟环境的管理
7-2 指标算法说明及环境准备
7-3 数据大盘算法指标
7-4 会员性别指标算法及ETL结果的ORM操作
7-5 注册渠道、是否关注指标实现及IF函数的用法
7-6 用户热度指标实现及crossjoin的一些思考
7-7 环比指标的实现
7-8 提醒类指标实现
7-9 折现图指标实现、JOIN实现、GMV指标算法(上)
7-10 (下)

7-11 漏斗指标实现思路及指标算法的测试验证
7-12 ES环境创建及Spark操作ES演示(上)
7-13 (下)
7-14 ES mapping 设计思路及JavaBean实现
7-15 ES 操作及命令
7-16 标签ETL代码实现
7-17 ES数据查询及ETL结果验证
7-18 标签清洗算法

第9章 课程总结
9-1 docker补充及数仓topic分享
9-2 订单宽表及hive视图的作用
9-3 spark 执行过程分析-logical plan
9-4 利用logicalplan 采集元数据信息
9-5 总结

