首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据开发
李白的手机
创建于2021-05-10
订阅专栏
分享关于大数据开发相关编程
等 5 人订阅
共4篇文章
创建于2021-05-10
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
SparkStreaming 整合 Kafka 实现精准一次消费
简介 SparkStreaming消费Kafka实现精确一次性消费. 保证消息不丢失、不重复消费. 消息处理的语义 At Least Once (至少处理一次): 消息至少被处理一次 可以保证 数据不
大数据平台搭建 | Hive
本质就是存储了Hdfs文件和表、数据库之间的映射关系(元数据), 然后提供了以SQL的方式去访问文件数据, 就跟访问表结构化数据一样. 它通过翻译SQL然后通过计算引擎去计算得到查询结果 元数据MetaStore: 就是Hdfs文件和表、数据库之间的映射关系数据. 默认存储在自…
大数据平台搭建 | Hadoop 集群搭建
NameNode: 管理命名空间、存储数据块映射信息(元数据)、 负责处理客户端对HDFS的访问. 处理提交的作业请求, 资源申请请求. 即是任务运行的容器又是Yarn对资源的抽象, 封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等. RM 为 AM 返回的资源便是用…
(Scala版)Spark Sql RDD/DataFrame/DataSet 相互转换总结
无论之前的DataFrame是如何转换过来的, DataFrame转成成的RDD的类型都是Row. 因为DataFrame = Dataset[Row], 所以实际是 Dataset[Row] 转成 RDD 返回的类型当然是Row