首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
Spark
订阅
水果堆里的兔子
更多收藏集
微信扫码分享
微信
新浪微博
QQ
9篇文章 · 0订阅
【详谈 Delta Lake 】系列技术专题 之 湖仓一体( Lakehouse )
简介: 本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta
谈谈流计算中的『Exactly Once』特性
本文翻译自 streaml.io 网站上的一篇博文:“Exactly once is NOT exactly the same” ,分析了流计算系统中常说的『Exactly Once』特性,主要观点是:『精确一次』并不保证是完全一样。主要内容如下: 1.1. 最多一次(At-m…
SparkStreaming实时任务处理的三种语义
kafka+SparkStreaming是目前lambda架构里比较流行的实施任务处理。但是里面的坑还是不少,没经历过的朋友得踩不少坑。At most once:一条记录要么被处理一次,要么没被处理。用人话说,就是会丢数据。这种语义其实就是使用Receiver直接接收Kafka的...
SparkStreaming 整合 Kafka 实现精准一次消费
简介 SparkStreaming消费Kafka实现精确一次性消费. 保证消息不丢失、不重复消费. 消息处理的语义 At Least Once (至少处理一次): 消息至少被处理一次 可以保证 数据不
十分钟彻底弄懂Spark内存管理机制
Spark内存管理的神秘面纱包裹下的细节究竟是什么?如何快速掌握正确的Spark内存管理和调试姿势,欢迎阅览~
一口气说完MR、Storm、Spark、SparkStreaming和Flink
一直想写一篇大数据计算引擎的综述,但是这个话题有点大。今天试试看能不能一口气写完。大数据计算的起点是Hadoop的MapReduce。之前虽然有一些分布式计算的工具,但是公认的大数据计算引擎的始祖仍然是MapReduce,虽然现在已经逐渐被同是批处理的Spark替代了。如同Map...
完成你的第一个Spark Streaming程序
其实 Spark Streaming 主要就是把算子用用,多敲代码的事儿。我当时觉得这个Spark Streaming好像要提的事情并不多呀,所以就直接跳过了。然后··· 虽然图很简陋,但是能把信息准确地表达就好。 第二行,我们setMaster(local[2]),这里要注意…
从零开始认识 Spark
Spark的知识点很多,决定分多P来慢慢讲🤣,比较关键的RDD算子其实已经写了大半,奈何内容还是太多了就不和这篇扯皮的放一起了。 spark是在Hadoop基础上的改进,是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算…
【大数据面试题】(八)Spark 相关面试题
1.1.2.1.2.3.4.5.2.3.4.8.stage的task的并行度是由stage的最后一个RDD的分区数来决定的,一般来说,一个partition对应一个task,但最后reduce的时候可以手动改变reduce的个数,也就是改变最后一个RDD的分区数,也就改变了并行度...