首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
PythonCN
更多收藏集
微信扫码分享
微信
新浪微博
QQ
11篇文章 · 0订阅
一文带你过完Spark RDD的基础概念
上一篇权当吹水了,从这篇开始进入正题。 RDD(Resilient Distributed Dataset)叫做 弹性分布式数据集 ,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合. 一个分区(Partition)列表,组成了该RDD的数据…
不一样的Flink入门教程
在前段时间写了一篇《Storm》入门的文章,很多同学给我说:“大人,时代变了”。 最近公司要把Storm集群给下线啦,所以我们都得把Storm的任务都改成Flink。 于是最近入门了一把Flink,现在来分享一下Flink入门的相关知识。 不得不说,Flink这两年是真的火🔥…
从零开始认识 Spark
Spark的知识点很多,决定分多P来慢慢讲🤣,比较关键的RDD算子其实已经写了大半,奈何内容还是太多了就不和这篇扯皮的放一起了。 spark是在Hadoop基础上的改进,是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算…
Spark 提交任务 源码解析 (一)
最令人头秃的就是看源码 环境 本次使用的spark版本是 3.0.0 1.这是我们提交任务的脚本 2.咱们看下 spark-submit 脚本代码
Hello Spark! | Spark,从入门到精通
Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。 当我们在谈 Spark 的时候可能是指一个 Spark 应用程序,替代 Ma…
Spark 快速入门教程
该入门教程搭配了在线环境,可以直接在线体验 spark。Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。本教程从核心组件、体系结构、安装部署方面做了介绍。
数仓建模分层理论
从字面上来看,数据仓库就是一个存放数据的仓库,它里面存放了各种各样的数据,而这些数据需要按照一些结构、规则来组织和存放。
Flink 从0-1实现 电商实时数仓 - 分层介绍 & 新建计算项目
分层介绍 需求分析及实现思路 在之前介绍实时数仓概念时讨论过,建设实时数仓的目的,主要是增加数据计算的复用性。每次新增加统计需求时,不至于从原始数据进行计算,而是从半成品继续加工而成。
Flink 大厂面试题
简单介绍一下 Flink Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽
Cris 带你快速入门 Flink
在开源世界里,Apache Storm项目是流处理的先锋。Storm最早由Nathan Marz和创业公司BackType的一个团队开发,后来才被Apache基金会接纳。Storm提供了低延迟的流处理,但是它为实时性付出了一些代价:很难实现高吞吐,并且其正确性没能达到通常所需的…