首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
slim_浩然
更多收藏集
微信扫码分享
微信
新浪微博
QQ
7篇文章 · 0订阅
hadoop-HDFS流程解析
客户端调用DS模块向NameNode请求上传文件。 假设文件为200M,客户端请求上传第一个 Block ,希望得到DataNode服务器位置。 NameNode返回3个DataNode节点,分别为dn1、dn2、dn3,用它们存储数据。 客户端通过FSDataOutputSt…
Spark 程序设计
优点: 顺序读写能够大幅提高磁盘IO性能,不会产生过多小文件,降低文件缓存占用内存空间大小,提高内存使用率。 缺点:多了一次粗粒度的排序。 在spark安装目录下运行:jar cv0f spark-libs.jar -C jars/ . 创建RDD:val rdd = sc. …
Flink 作为现代数据仓库的统一引擎:Hive 集成生产就绪!
Flink 一直遵循“ 流优先,批是流的一个特例”的思想理念。在这一思想的指导下,Flink 将最先进的流式处理技术运用到批处理中,使得 Flink 的批处理能力一早就令人印象深刻。特别是在 Flink 1.10 中我们基本完成了从1.9开始的对 Blink planner 的…
大数据资源整理
scala、spark 使用过程中,各种测试用例以及相关资料整理
美团配送数据治理实践
大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台。 但这里要特别强调一下,如果在大数据“拼图”中遗忘了数据治理,可能再多的技术投入也是一种徒劳。因为没有数据治理这一环…
Spark难点 | Join的实现原理
Join背景当前SparkSQL支持三种join算法:ShuffleHashJoin、BroadcastHashJoin以及SortMergeJoin。其中前两者归根到底都属于HashJoin,只不过
hadoop-MapReduce流程解析
1. 待处理文本 这里假设是/user/input目录下的ss.txt 文件,大小为200M。 2. 客户端submit() 3. 提交信息 将刚刚获取的任务规划信息,提交到资源管理器上,我们这里用Yarn。 4. RM计算MapTask数量 接着向Yarn的RM申请资源,RM…