首页
AI Coding
AIDP
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大数据
清茗一盏
创建于2022-10-16
订阅专栏
大数据使用组件开发
暂无订阅
共7篇文章
创建于2022-10-16
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
spark 作业参数以及优化
1. 资源动态分配参数 测试生产环境中spark on yarn作业 发现资源的参数无论怎么调整资源参数 启动job后,任务的资源参数与启动的都对不上;后来在cdp集群的spark环境查询到资源动态参
大数据数仓
大数据数仓 数仓的搭建主要包括数据的接入,数据的存储,数据的计算。数据接入主要依赖基于业务库查询或者binlog日志的cdc组件,存储组件主要就是hadoop的hdfs、yarn三大组件以及hive,
hive sql专题
1. 行转列(转置) 行转列的常规做法是,group by+sum(if())【或count(if())】 year month amount 1991 1 1.1 1991 2 1.2 1991 3
大数据面试
# 1. hive系列面试分享 ## 1.hive sql连续登录问题: ![image.png]
Flink checkpoint过程
checkpoint的过程包含了JobManager和Taskmanager端task的执行过程,按照步骤为: 1、在JobManager端构建ExecutionGraph过程中会创建Checkpoi
初步了解flink-flink的运行架构
1.Flink 运行时的组件 接下来主要对这四个组件进行讲解; 1.1作业管理器(JobManager) 控制一个应用程序执行的主进程,也就是说,每个应用程序都会被一个不同的 JobManager 所
调度框架之海豚调度
1.dolphinscheduler的整体调用架构图: 2.通过阅读源码个人的简要理解 海豚调度 个人简单理解:是api 提供执行调度脚本的接口,比如发布一个调度脚本任务,首先会将调度的command