大数据 - PythonCN的收藏集 - 掘金

大数据

更多收藏集

11篇文章 · 0订阅

一文带你过完Spark RDD的基础概念

上一篇权当吹水了，从这篇开始进入正题。 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区（Partition）列表，组成了该RDD的数据…

说出你的愿望吧
6年前
5.2k
63
10

不一样的Flink入门教程

在前段时间写了一篇《Storm》入门的文章，很多同学给我说：“大人，时代变了”。最近公司要把Storm集群给下线啦，所以我们都得把Storm的任务都改成Flink。于是最近入门了一把Flink，现在来分享一下Flink入门的相关知识。不得不说，Flink这两年是真的火🔥…

Java3y
5年前
2.4k
21
3

从零开始认识 Spark

Spark的知识点很多，决定分多P来慢慢讲🤣，比较关键的RDD算子其实已经写了大半，奈何内容还是太多了就不和这篇扯皮的放一起了。 spark是在Hadoop基础上的改进，是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算…

说出你的愿望吧
6年前
4.9k
64
13

Spark 提交任务源码解析 (一)

最令人头秃的就是看源码环境本次使用的spark版本是 3.0.0 1.这是我们提交任务的脚本 2.咱们看下 spark-submit 脚本代码

摸鱼专家
4年前
7.1k
112
1

Spark 提交任务源码解析 (一)

Hello Spark! | Spark，从入门到精通

Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架，是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。当我们在谈 Spark 的时候可能是指一个 Spark 应用程序，替代 Ma…

美图数据技术团队
7年前
12k
157
5

Hello Spark! | Spark，从入门到精通

Spark 快速入门教程

该入门教程搭配了在线环境，可以直接在线体验 spark。Apache Spark 是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。本教程从核心组件、体系结构、安装部署方面做了介绍。

实验楼
8年前
18k
60
评论

数仓建模分层理论

从字面上来看，数据仓库就是一个存放数据的仓库，它里面存放了各种各样的数据，而这些数据需要按照一些结构、规则来组织和存放。

王知无
4年前
3.4k
21
3

Flink 从0-1实现电商实时数仓 - 分层介绍 & 新建计算项目

分层介绍需求分析及实现思路在之前介绍实时数仓概念时讨论过，建设实时数仓的目的，主要是增加数据计算的复用性。每次新增加统计需求时，不至于从原始数据进行计算，而是从半成品继续加工而成。

摸鱼专家
4年前
12k
129
2

Flink 从0-1实现电商实时数仓 - 分层介绍 & 新建计算项目

Flink 大厂面试题

简单介绍一下 Flink Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽

摸鱼专家
4年前
13k
205
评论

Cris 带你快速入门 Flink

在开源世界里，Apache Storm项目是流处理的先锋。Storm最早由Nathan Marz和创业公司BackType的一个团队开发，后来才被Apache基金会接纳。Storm提供了低延迟的流处理，但是它为实时性付出了一些代价：很难实现高吞吐，并且其正确性没能达到通常所需的…

Cris就是我
7年前
18k
95
3

Cris 带你快速入门 Flink