是奉壹呀

哥谭自治州第九人民医院

Apache spark&flink contributor

赞

55

|

搜索文章

spark快速开发之scala基础

面向java开发者。实际上，具有java基础学习scala是很容易。java也可以开发spark,并不比scala开发的spark程序慢。但学习scala可有助于更快更好的理解spark。

2年前
303
点赞
评论

structed streaming 触发器trigger

structed streaming的执行批次，较spark streaming有所改变。更加灵活。总结下来，可大白话地分为三类。

2年前
314
点赞
评论

本周SQL优化实战分享

分享一下本周SQL优化的两个场景。如果能对读者有一定的启发，共同探讨，不胜荣幸。版本信息：mysql,5.7.19 引擎: innodb

2年前
2.3k
19
7

Structured Streaming 的异常处理【Concurrent update to the log. Multiple streaming job

本文主要探讨 structured streaming实时处理多任务共享一个checkpoint检查点下的一个异常。

2年前
978
2
评论

大数据领域实时计算的限速/反压机制

一个spark集群，资源总是有限。提交一个spark任务，申请的资源总是有限。所以合理的限速和反压显得非常重要。

2年前
758
1
评论

distribute by在spark中的一些妙用

排序常用到的是 sort by和order by，本文重点为distribute by与两者的异同。

2年前
1.5k
2
评论

一个线上全文索引BUG的排查：关于类阿拉件数字的分词与检索

说到全文检索的分词，多半讲到的是中(日韩)文分词，少有英文等拉丁文系语言，因为英语单词天然就是分词的。但更少讲到阿拉伯数字。比如金额，手机号码，座机号码等等。

2年前
2.1k
10
评论

《Flink SQL任务自动生成与提交》后续：修改flink源码实现kafka connector BatchMode

因为在一篇博文上看到介绍“汽车之家介绍flink数据平台”中提到“基于 SQL 的开发流程”。基于kafka connector，通过source,sink,transformation三条sql完成

2年前
1.1k
2
评论

一次spark任务提交参数的优化

起因新接触一个spark集群，明明集群资源（core,内存）还有剩余，但是提交的任务却申请不到资源。

2年前
708
2
评论

扯什么kafka顺序消费，古尔丹，代价是什么

kafka就像摩托车是一个交通工具，能跑在廉价的道路(普通服务器)上，将便利(曾经高大上的大数据)带到千家万户(普通小公司)。但它不是装X工具。

2年前
1.4k
8
评论

扯什么kafka顺序消费，古尔丹，代价是什么

个人成就

文章被点赞 945

文章被阅读 141,376

掘力值 4,867

加入于

2022-06-13