spark - 龙猫呤的收藏集 - 掘金

spark

更多收藏集

8篇文章 · 0订阅

MySQL同步数据到HBase

注意：upperBound和numPartitions两个参数是有关联的，upperBound / numPartitions = 每个分区需要写入多少条数据，所以最好就是搞清楚数据总量是多少，因为笔者就遇到这么一个问题，本来总量是4000W条数据，笔者设置upperBound…

说出你的愿望吧
5年前
3.6k
40
5

Spark的两种核心Shuffle详解（建议收藏）

在 MapReduce 框架中， Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁， Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉

五分钟学大数据
4年前
2.5k
7
评论

Spark Structured Streaming 集成 Kafka 源码解析-Source篇

读源码前思考的问题 Structured Streaming + Kafka 如何保障数据不丢？ Structured Streaming 没有用Kafka的消费者重平衡机制，如何分配消费者和part

Nathan
4年前
1.9k
5
评论

Spark必读！总有一些Spark知识点你需要知道

一文梳理Spark必会知识点。既可以快速对Spark有个简单清晰的认知；也可以回顾Spark基础概念和原理，培养性能优化意识；还可以针对性的进行知识点查缺补漏。

去哪儿技术沙龙
4年前
1.3k
5
评论

Spark必读！总有一些Spark知识点你需要知道

Spark SQL踩坑经验总结及调优分享

Spark SQL是Spark生态系统中非常重要的组件，能够利用 Spark 进行结构化的存储和操作。本文将围绕Spark内存泄露问题进行排查，并且给出具体的Spark调优方法。

录信数软
4年前
1.6k
1
评论

Spark SQL踩坑经验总结及调优分享

一文带你理清Spark Core调优的方方面面

图非常的重要，是文章中最有价值的部分。如果不是很重要的图一般不会亲手画此文会很大程度上借鉴美团的文章分享内容和Spark官方资料去进行说明，也会结合笔者自身的理解。这里会直接一笔带过，不作详细的展开了，大家可以通过搜索引擎能找到它们的详细说明。我们用最直接的话来阐述就如字…

说出你的愿望吧
6年前
4.0k
61
4

字节跳动面试官：请你实现一个大文件上传和断点续传

这段时间面试官都挺忙的，频频出现在博客文章标题，虽然我不是特别想蹭热度，但是实在想不到好的标题了-。-，蹭蹭就蹭蹭 :)

yeyan1996
6年前
372k
6.7k
658

是时候学习真正的 spark 技术了

spark sql 可以说是 spark 中的精华部分了，我感觉整体复杂度是 spark streaming 的 5 倍以上，现在 spark 官方主推 structed streaming， spark streaming 维护的也不积极了，我们基于 spark 来构建大数…

七牛云
7年前
4.9k
32
2

是时候学习真正的 spark 技术了