大数据 - slim_浩然的收藏集 - 掘金

大数据

更多收藏集

7篇文章 · 0订阅

hadoop-HDFS流程解析

客户端调用DS模块向NameNode请求上传文件。假设文件为200M，客户端请求上传第一个 Block ，希望得到DataNode服务器位置。 NameNode返回3个DataNode节点，分别为dn1、dn2、dn3，用它们存储数据。客户端通过FSDataOutputSt…

Zouxxyy
6年前
1.3k
2
评论

Spark 程序设计

优点：顺序读写能够大幅提高磁盘IO性能，不会产生过多小文件，降低文件缓存占用内存空间大小，提高内存使用率。缺点：多了一次粗粒度的排序。在spark安装目录下运行：jar cv0f spark-libs.jar -C jars/ . 创建RDD：val rdd = sc. …

清风云悦
6年前
545
点赞
评论

Flink 作为现代数据仓库的统一引擎：Hive 集成生产就绪！

Flink 一直遵循“ 流优先，批是流的一个特例”的思想理念。在这一思想的指导下，Flink 将最先进的流式处理技术运用到批处理中，使得 Flink 的批处理能力一早就令人印象深刻。特别是在 Flink 1.10 中我们基本完成了从1.9开始的对 Blink planner 的…

Flink_China
5年前
1.2k
1
评论

大数据资源整理

scala、spark 使用过程中，各种测试用例以及相关资料整理

jacksu
9年前
4.1k
186
1

美团配送数据治理实践

大数据时代的到来，让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产，已经成为业界的一种共识，企业也在快速探索应用场景和商业模式，并开始建设技术平台。但这里要特别强调一下，如果在大数据“拼图”中遗忘了数据治理，可能再多的技术投入也是一种徒劳。因为没有数据治理这一环…

美团技术团队
6年前
3.2k
34
3

Spark难点 | Join的实现原理

Join背景当前SparkSQL支持三种join算法：ShuffleHashJoin、BroadcastHashJoin以及SortMergeJoin。其中前两者归根到底都属于HashJoin，只不过

王知无
6年前
3.1k
3
评论

hadoop-MapReduce流程解析

1. 待处理文本这里假设是/user/input目录下的ss.txt 文件，大小为200M。 2. 客户端submit（） 3. 提交信息将刚刚获取的任务规划信息，提交到资源管理器上，我们这里用Yarn。 4. RM计算MapTask数量接着向Yarn的RM申请资源，RM…

Zouxxyy
6年前
1.7k
2
评论