获得徽章 0
- 8月31日打卡,今天学习了大数据Hadoop之——实时计算流计算引擎Flink(Flink环境部署),了解到flink工作原理,主要核心概念有time,windows,trigger、state、状态存储checkpoint、watermark。评论点赞
- 8月30日打卡,今天学习了spark的开发环境搭建,主要分为saprk安装和Scala语言安装,spark。同时idea也支持集成Scala插件。评论点赞
- 8月29日打卡,今天学习了spark的shuffle过程,第一次出现在HashShuffle过程,HashShuffle具有多种机制;第二shuffle存在sort shuffle,分为普通机制和bypass机制。评论点赞
- 8月26日打卡,我学习了spark在企业级数仓建设的优势。主要包含分析目前以hive为基础的技术组件,hive组件带来的功能特性以及弊端;之后引出对于spark组件的思考,列举相关的组件优势;同时提取出字节在spark sql上的优势以及产品特性。评论点赞
- 8月25日打卡,今天我学习了HDFS基础概念,主要分为三大组件:namenode、metada和SecondaryNameNode;DFS两大机制:心跳机制和负载均衡评论点赞
- 8月24日打卡,今天学习了HBASE的存储结构文档,文章从HBASE的存储结构出发,讲解了逻辑存储结构,regionserver和region关系。;同时讲解了在物理结构中查找不同的CF的数据;HBASE的架构:HBASE读取数据过程和写入数据过程。评论点赞
- 8月23日打卡,今天学习了HBASE的入门文档,文章对比了HBASE的NO-SQL关系型数据库与关系型数据库的区别;展示了HBASE的架构:HBASE单节点服务安装运行,同时配置了对应的案例与代码,自己进行了直接运行。评论点赞
- 8月21日打卡,我今天学习了一千万数据,怎么快速查询?,针对于面试的问题提出采用子查询和id限定的方式。评论点赞
- 8月20日打卡,我今天学习了大数据管理系统架构Hadoop,主要包括HDFS分布式文件系统、MapReduce 数据处理系统,MapReduce是位于HDFS文件系统上一层的计算引擎,它由JobTracker 和 TaskTracker 组成。JobTracker是运行在 Hadoop 集群主节点上的重要进程,负责MapReduce的整体任务调度。同NameNode 一样,JobTracker在集群中也具有唯一性。TaskTracker进程则运行在集群中的每个子节点上,负责管理各自节点上的任务分配。展开评论点赞
- 8月19日打卡,今天学习了大数据架构师关注内容,梳理了大数据架构师需要认真学习的技术体系,让我更加充分认识到大数据生态的宏图。评论点赞