大虾饺

数据开发工程师 | 公司

大数据后端

赞

7

|

搜索文章

spark streaming job hudi upsert 耗时比较久？有可能是commits的问题

问题描述最近使用hudi 增量读的功能时，由于需要保留比较多的commits,因此设置比较的commits,假设spark steaming job 1分钟一个batch,保留一天增量读的commi

2年前
219
点赞
评论

<dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-api</artifactId> <v

2年前
123
点赞
评论

hive on spark - 各种 jar 找不到的解决方法

1.问题描述最近需要用hive,并且配置hive on spark,然后运行的时候各种各样的类找不到报错，例如 2. 方案解决检测 spark-env配置设置 ${spark_dir}/conf

2年前
305
点赞
评论

spark-submit 提交有问题, 一直在accept状态

问题描述 spark-submit提交到yarn上面报错如下，显示连接不到8030，但是已经设置了yarn-site的参数解决方案查看spark-env.sh 是否被正常引用查看yarn-sit

2年前
266
点赞
评论

python 找不到类 No module named 'sqlalchemy.database'

python 使用 sqlalchemy.databases import mysql 找不到类 1.发现是SQLalchemy的版本比较高导致整个问题。降低版本就可以了

3年前
1.1k
1
评论

No ExecutorFactory found to execute the application.

flink 1.12.7 sql 报错少了这个jar包 flinksql 完整jar包Exception in thread "main" java.lang.IllegalStateExcept

4年前
1.3k
点赞
评论

flink状态管理-flink状态介绍

在flink中，状态叫做State，用来保存中间结果或者一些缓存数据，对于Flink中的很多DataStream算子来说，他们都需要依赖一定中间结果即状态来进行计算。例如去重操作，CEP检测操作，Ex

4年前
2.3k
2
评论

flink任务提交与执行5-Task的执行

在Execution.deploy()方法执行完后，TaskManager会接收到JobManager提交的TaskDesploymentDescriptor信息，完成Task的任务的构建并启动运行。

4年前
2.4k
1
评论

flink任务提交与执行4-ExecutionGraph的调度与执行

在创建和初始化SchedulerNG的过程中，会在SchedulerNG中同步创建ExecutionGraph对象，代码如下。 1.ExecutionGraph的核心概念 ExecutionJobVe

4年前
1.1k
点赞
评论

flink任务执行与提交3-JobGraph的提交和JobManager的初始化

1.JobGraph的提交整体流程当JobGraph被提交到集群运行后，集群会通过Dispatcher组件接受提交的JobGraph对象，Dispatcher组件会通过JobManagerRunne

4年前
605
点赞
评论

个人成就

文章被点赞 6

文章被阅读 17,132

加入于

2020-11-09