大数据 - sherlocker的收藏集 - 掘金

大数据

sherlocker 创作等级LV.3

更多收藏集

9篇文章 · 0订阅

Spark 源码分析（一）：Spark Submit 任务提交

研究 Spark 内部是怎么运行的，怎么将 Spark 的任务从开始运行到结束的，先从 spark-submit 这个 shell 脚本提交用户程序开始。下面的分析都是基于 spark 2.1.1 版本。脚本最后调用 exec 执行 "${SPARK_HOME}"/bin/s…

stonezhu
6年前
3.0k
3
评论

Linux环境Spark安装配置及使用

1. 认识Spark 官方介绍：Apache Spark™ is a unified analytics engine for large-scale data processing.（Apache Spark™是一个用于大规模数据处理的统一分析引擎。） Spark是一种快速、…

YBCarry_段松啓
6年前
32k
13
1

完成你的第一个Spark Streaming程序

其实 Spark Streaming 主要就是把算子用用，多敲代码的事儿。我当时觉得这个Spark Streaming好像要提的事情并不多呀，所以就直接跳过了。然后··· 虽然图很简陋，但是能把信息准确地表达就好。第二行，我们setMaster(local[2])，这里要注意…

说出你的愿望吧
6年前
1.8k
41
5

18个PPT，29个提问解答，都在这儿啦！

4月25-26日，全球首个 Apache 顶级项目在线盛会 Flink Forward 中文精华版重磅开播，聚焦 Alibaba、 Google、AWS、Uber、Netflix、DellEMC、微博、滴滴等各大互联网公司实时计算的经典场景和业务故事，由 Flink 核心贡献者…

Flink_China
5年前
1.1k
1
评论

Flink学习(一)：Flink基本使用

1. 初识Flink 1. Flink概述 Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded da…

thpffcj
5年前
2.4k
4
评论

流式计算的三种框架：Storm、Spark和Flink

我们知道，大数据的计算模式主要分为批量计算(batch computing)、流式计算(stream computing)、交互计算(interactive computing)、图计算(graph computing)等。其中，流式计算和批量计算是两种主要的大数据计算模式，分…

天枢数智运营
6年前
10k
6
1

Spark 计算模块源码学习

能力有限，目前还是个学习者的姿态，所以只是记录一下spark计算模块源码的学习过程。在学习的过程中发现上面几个是不错的学习资料，推荐给大家，带*号表示值得优先查看学习的资料。计算模块这一部分是Spark重点，建议都看。因为每个资料都各有侧重点，所以可能在看的时候对一些没有细…

Hiway
6年前
1.2k
点赞
评论

Redis基础你掌握多少了？来查漏补缺？

Redis 是开源，内存中的数据结构存储系统，它可以用作数据库、缓存和消息中间件。它支持多种类型的数据结构，如字符串strings，散列 hashes，列表 lists，集合 sets，有序集合 sorted sets 与范围查询， bitmaps， hyperl…

FrancisQ
6年前
7.5k
72
10

Spark 的核心概念 RDD

RDD(Resilient Distributed Dataset) 叫着弹性分布式数据集，是Spark 中最基本的抽象，它代表一个不可变、可分区、里面元素可以并行计算的集合。 RDD 具有数据流模型特点：自动容错、位置感知性调度和可伸缩。 RDD 允许用户在执行多个查询时…

乔二爷
7年前
6.5k
6
1