获得徽章 0
8月31日打卡,今天学习了大数据Hadoop之——实时计算流计算引擎Flink(Flink环境部署),了解到flink工作原理,主要核心概念有time,windows,trigger、state、状态存储checkpoint、watermark。
评论
8月30日打卡,今天学习了spark的开发环境搭建,主要分为saprk安装和Scala语言安装,spark。同时idea也支持集成Scala插件。
评论
8月29日打卡,今天学习了spark的shuffle过程,第一次出现在HashShuffle过程,HashShuffle具有多种机制;第二shuffle存在sort shuffle,分为普通机制和bypass机制。
评论
8月26日打卡,我学习了spark在企业级数仓建设的优势。主要包含分析目前以hive为基础的技术组件,hive组件带来的功能特性以及弊端;之后引出对于spark组件的思考,列举相关的组件优势;同时提取出字节在spark sql上的优势以及产品特性。
评论
8月25日打卡,今天我学习了HDFS基础概念,主要分为三大组件:namenode、metada和SecondaryNameNode;DFS两大机制:心跳机制和负载均衡
评论
8月24日打卡,今天学习了HBASE的存储结构文档,文章从HBASE的存储结构出发,讲解了逻辑存储结构,regionserver和region关系。;同时讲解了在物理结构中查找不同的CF的数据;HBASE的架构:HBASE读取数据过程和写入数据过程。
评论
8月23日打卡,今天学习了HBASE的入门文档,文章对比了HBASE的NO-SQL关系型数据库与关系型数据库的区别;展示了HBASE的架构:HBASE单节点服务安装运行,同时配置了对应的案例与代码,自己进行了直接运行。
评论
8月21日打卡,我今天学习了一千万数据,怎么快速查询?,针对于面试的问题提出采用子查询和id限定的方式。
评论
8月20日打卡,我今天学习了大数据管理系统架构Hadoop,主要包括HDFS分布式文件系统、MapReduce 数据处理系统,MapReduce是位于HDFS文件系统上一层的计算引擎,它由JobTracker 和 TaskTracker 组成。JobTracker是运行在 Hadoop 集群主节点上的重要进程,负责MapReduce的整体任务调度。同NameNode 一样,JobTracker在集群中也具有唯一性。TaskTracker进程则运行在集群中的每个子节点上,负责管理各自节点上的任务分配。
展开
评论
8月19日打卡,今天学习了大数据架构师关注内容,梳理了大数据架构师需要认真学习的技术体系,让我更加充分认识到大数据生态的宏图。
评论
8月18日打卡,今天学习大数据应用开发流程,主要分为大数据的获取、存储、处理、访问、编制,一般储存之后都是通过各种分析平台对大量数据进行处理。
评论
8月17日打卡,今天我学习了大数据处理工具Kettle,kettle 的执行分为两个层次:Job(作业,.kjb 后缀)和 Transformation(转换,.ktr 后缀),对大数据进行ETL
评论
8月16日打卡,今天我学习了Python大数据分析神器dask,由于pandas和numpy都是RAM处理,但是基于大数据集的就会内存飙升,dask支持多集群的运行。
评论
下一页