大数据 - 九卷沉思录的收藏集 - 掘金

大数据

九卷沉思录

更多收藏集

17篇文章 · 0订阅

常用的几种大数据架构剖析

随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于Hadoop系列的大数据分析系统大行其道之前，数据分析工作已经经历了长足的发展，尤其是以BI系统为主的数据分析，已经有了非常成熟和稳定的技术方案和生态系统。

已注销
8年前
2.9k
29
评论

【大数据专场学习资料七】第四届字节跳动青训营

第四届字节跳动青训营讲师非常用心给大家整理了课前、中、后的学习内容，同学们自我评估，选择性查漏补缺，便于大家更好的跟上讲师们的节奏，祝大家学习愉快，多多提问交流～

字节跳动青训营
3年前
2.3k
14
评论

【大数据专场学习资料一】第四届字节跳动青训营

第四届字节跳动青训营讲师非常用心给大家整理了课前、中、后的学习内容，同学们自我评估，选择性查漏补缺，便于大家更好的跟上讲师们的节奏，祝大家学习愉快，多多提问交流～

字节跳动青训营
3年前
11k
90
4

【大数据专场学习资料五】第四届字节跳动青训营

> 第四届字节跳动青训营讲师非常用心给大家整理了课前、中、后的学习内容，同学们自我评估，选择性查漏补缺，便于大家更好的跟上讲师们的节奏，祝大家学习愉快，多多提问交流～

字节跳动青训营
3年前
2.5k
19
评论

Flink 的算子操作

scala shell方式支持流处理和批处理。当启动shell命令行之后，两个不同的ExecutionEnvironments会被自动创建。使用senv(Stream)和benv(Batch)分别去处理流处理和批处理程序。(类似于spark-shell中sc变量) 而且细心的小…

说出你的愿望吧
6年前
4.1k
49
1

Flink 基础入门

Spark 的写过的内容我回顾了一下，我觉得如果把一文带你过完Spark RDD的基础概念给理解透彻的话，这东西其实也实在没有太多需要展开的，所以我就先跳坑直接 Flink 了，如果有什么需要特别去补充的地方，就之后再补上吧。 Spark Streaming 准确来说算是一…

说出你的愿望吧
6年前
4.5k
60
10

带你入坑大数据（二） --- HDFS的读写流程和一些重要策略

Distributed FileSystem顾名思义是一个分布式文件系统，它会通过RPC的方式远程过程调用NameNode里的open方法，这个open方法有什么作用呢，就是获取要读的文件的file block locations，也就是文件的block的位置，在上一讲我们也已…

说出你的愿望吧
6年前
5.8k
53
11

Hadoop 学习系列（四）之 MapReduce 原理讲解

本篇文章将会介绍 Hadoop 重要的计算框架 MapReduce。实际运行层面，即算法逻辑作业在分布式主机中是以什么形式和什么流程运行的，因为自 MapReduce version2 以后，作业都是提交给 YARN 进行管理，所以本文将不会介绍此部分。 MapReduce是…

PeTu9465
7年前
14k
30
2

带你入坑大数据（三） --- MapReduce介绍

简单回顾一下HDFS的写流程，MapReduce基础知识及机制了解，更详细的可以到我主页之后的MapReduce章节去查看

说出你的愿望吧
6年前
4.3k
27
4

从零开始认识 Spark

Spark的知识点很多，决定分多P来慢慢讲🤣，比较关键的RDD算子其实已经写了大半，奈何内容还是太多了就不和这篇扯皮的放一起了。 spark是在Hadoop基础上的改进，是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算…

说出你的愿望吧
6年前
4.9k
64
13