Spark - 水果堆里的兔子的收藏集 - 掘金

Spark

水果堆里的兔子

更多收藏集

9篇文章 · 0订阅

【详谈 Delta Lake 】系列技术专题之湖仓一体（ Lakehouse ）

简介：本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知，Databricks 主导着开源大数据社区 Apache Spark、Delta

阿里云云栖号
4年前
1.2k
1
评论

【详谈 Delta Lake 】系列技术专题之湖仓一体（ Lakehouse ）

谈谈流计算中的『Exactly Once』特性

本文翻译自 streaml.io 网站上的一篇博文：“Exactly once is NOT exactly the same” ，分析了流计算系统中常说的『Exactly Once』特性，主要观点是：『精确一次』并不保证是完全一样。主要内容如下： 1.1. 最多一次（At-m…

Flink_China
6年前
7.0k
7
评论

SparkStreaming实时任务处理的三种语义

kafka+SparkStreaming是目前lambda架构里比较流行的实施任务处理。但是里面的坑还是不少，没经历过的朋友得踩不少坑。At most once：一条记录要么被处理一次，要么没被处理。用人话说，就是会丢数据。这种语义其实就是使用Receiver直接接收Kafka的...

大数据架构师
4年前
205
点赞
评论

SparkStreaming 整合 Kafka 实现精准一次消费

简介 SparkStreaming消费Kafka实现精确一次性消费. 保证消息不丢失、不重复消费. 消息处理的语义 At Least Once (至少处理一次): 消息至少被处理一次可以保证数据不

李白的手机
4年前
2.8k
11
评论

十分钟彻底弄懂Spark内存管理机制

Spark内存管理的神秘面纱包裹下的细节究竟是什么？如何快速掌握正确的Spark内存管理和调试姿势，欢迎阅览~

大数据兵工厂
3年前
7.1k
6
评论

十分钟彻底弄懂Spark内存管理机制

一口气说完MR、Storm、Spark、SparkStreaming和Flink

一直想写一篇大数据计算引擎的综述，但是这个话题有点大。今天试试看能不能一口气写完。大数据计算的起点是Hadoop的MapReduce。之前虽然有一些分布式计算的工具，但是公认的大数据计算引擎的始祖仍然是MapReduce，虽然现在已经逐渐被同是批处理的Spark替代了。如同Map...

大数据架构师
4年前
348
5
评论

完成你的第一个Spark Streaming程序

其实 Spark Streaming 主要就是把算子用用，多敲代码的事儿。我当时觉得这个Spark Streaming好像要提的事情并不多呀，所以就直接跳过了。然后··· 虽然图很简陋，但是能把信息准确地表达就好。第二行，我们setMaster(local[2])，这里要注意…

说出你的愿望吧
5年前
1.7k
41
5

从零开始认识 Spark

Spark的知识点很多，决定分多P来慢慢讲🤣，比较关键的RDD算子其实已经写了大半，奈何内容还是太多了就不和这篇扯皮的放一起了。 spark是在Hadoop基础上的改进，是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算…

说出你的愿望吧
5年前
4.8k
62
13

【大数据面试题】（八）Spark 相关面试题

1.1.2.1.2.3.4.5.2.3.4.8.stage的task的并行度是由stage的最后一个RDD的分区数来决定的，一般来说，一个partition对应一个task，但最后reduce的时候可以手动改变reduce的个数，也就是改变最后一个RDD的分区数，也就改变了并行度...

云祁
3年前
298
点赞
评论