大数据开发

大数据开发

大数据开发

分享关于大数据开发相关编程

等 5 人订阅共4篇文章创建于2021-05-10

SparkStreaming 整合 Kafka 实现精准一次消费

简介 SparkStreaming消费Kafka实现精确一次性消费. 保证消息不丢失、不重复消费. 消息处理的语义 At Least Once (至少处理一次): 消息至少被处理一次可以保证数据不

4年前
2.9k
12
评论

大数据平台搭建 | Hive

本质就是存储了Hdfs文件和表、数据库之间的映射关系(元数据), 然后提供了以SQL的方式去访问文件数据, 就跟访问表结构化数据一样. 它通过翻译SQL然后通过计算引擎去计算得到查询结果元数据MetaStore: 就是Hdfs文件和表、数据库之间的映射关系数据. 默认存储在自…

5年前
2.1k
4
1

大数据平台搭建 | Hadoop 集群搭建

NameNode: 管理命名空间、存储数据块映射信息(元数据)、负责处理客户端对HDFS的访问. 处理提交的作业请求, 资源申请请求. 即是任务运行的容器又是Yarn对资源的抽象, 封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等. RM 为 AM 返回的资源便是用…

5年前
2.8k
7
评论

(Scala版)Spark Sql RDD/DataFrame/DataSet 相互转换总结

无论之前的DataFrame是如何转换过来的, DataFrame转成成的RDD的类型都是Row. 因为DataFrame = Dataset[Row], 所以实际是 Dataset[Row] 转成 RDD 返回的类型当然是Row

5年前
4.1k
2
评论