首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
sherlocker
更多收藏集
微信扫码分享
微信
新浪微博
QQ
9篇文章 · 0订阅
Spark 源码分析(一):Spark Submit 任务提交
研究 Spark 内部是怎么运行的,怎么将 Spark 的任务从开始运行到结束的,先从 spark-submit 这个 shell 脚本提交用户程序开始。下面的分析都是基于 spark 2.1.1 版本。 脚本最后调用 exec 执行 "${SPARK_HOME}"/bin/s…
Linux环境Spark安装配置及使用
1. 认识Spark 官方介绍:Apache Spark™ is a unified analytics engine for large-scale data processing.(Apache Spark™是一个用于大规模数据处理的统一分析引擎。) Spark是一种快速、…
完成你的第一个Spark Streaming程序
其实 Spark Streaming 主要就是把算子用用,多敲代码的事儿。我当时觉得这个Spark Streaming好像要提的事情并不多呀,所以就直接跳过了。然后··· 虽然图很简陋,但是能把信息准确地表达就好。 第二行,我们setMaster(local[2]),这里要注意…
18个PPT,29个提问解答,都在这儿啦!
4月25-26日,全球首个 Apache 顶级项目在线盛会 Flink Forward 中文精华版重磅开播,聚焦 Alibaba、 Google、AWS、Uber、Netflix、DellEMC、微博、滴滴等各大互联网公司实时计算的经典场景和业务故事,由 Flink 核心贡献者…
Flink学习(一):Flink基本使用
1. 初识Flink 1. Flink概述 Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded da…
流式计算的三种框架:Storm、Spark和Flink
我们知道,大数据的计算模式主要分为批量计算(batch computing)、流式计算(stream computing)、交互计算(interactive computing)、图计算(graph computing)等。其中,流式计算和批量计算是两种主要的大数据计算模式,分…
Spark 计算模块源码学习
能力有限,目前还是个学习者的姿态,所以只是记录一下spark计算模块源码的学习过程。在学习的过程中发现上面几个是不错的学习资料,推荐给大家,带*号表示值得优先查看学习的资料。 计算模块这一部分是Spark重点,建议都看。 因为每个资料都各有侧重点,所以可能在看的时候对一些没有细…
Redis基础你掌握多少了?来查漏补缺?
Redis 是 开源,内存 中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。它支持多种类型的数据结构,如 字符串strings, 散列 hashes, 列表 lists, 集合 sets, 有序集合 sorted sets 与范围查询, bitmaps, hyperl…
Spark 的核心概念 RDD
RDD(Resilient Distributed Dataset) 叫着 弹性分布式数据集 ,是Spark 中最基本的抽象,它代表一个不可变、可分区、里面元素可以并行计算的集合。 RDD 具有数据流模型特点:自动容错、位置感知性调度和可伸缩。 RDD 允许用户在执行多个查询时…