首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Python与大数据
掘友等级
大数据开发工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
1
文章 1
沸点 0
赞
1
返回
|
搜索文章
最新
热门
PyFlink从入门到精通
PyFlink学习大纲 PyFlink简介 什么是PyFlink PyFlink是一个可以让我们用Python语言编写Flink程序的库。它提供了与Flink Java/Scala API等
Flink SQL DDL基本语法介绍
Flink SQL DDL(Data Definition Language)基本语法介绍。 一、数据库 创建数据库 语法 案例 查询数据库 修改数据库 删除数据库 RESTRICT:删除非空数据库会
Flink SQL流处理中的表
Table API 和 SQL 是最上层的API,在Flink中这两种API被集成在一起,SQL执行的对象也是Flink中的表(Table),所以我们一般会认为它们是一体的。Flink是批流统一的处理
Chat2DB:超丝滑的智能且多功能的SQL客户端和报表工具
Chat2DB 智能的通用数据库SQL客户端和报表工具,适用于各种数据库。它是一款有开源免费的多数据库客户端工具,支持windows、mac本地安装,也支持服务器端部署,web网页访问。
Flink中的核心概念
一、并行度(Parallelism) 并行子任务和并行度 当要处理的数据量非常大时,可以把一个算子操作“复制”多份到多个节点,数据来了之后就可以到其中任意一个执行。
hive 中那些函数的用法!
Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。 好处:避免用户反复写逻辑,可以直接拿来使用。
HQL语法优化之其他优化
CBO优化 CBO是指Cost based Optimizer,即基于计算成本的优化。 在Hive中,计算成本模型考虑到了
HQL语法优化之小文件合并
小文件合并优化,分为两个方面,分别是Map端输入的小文件合并,和Reduce端输出的小文件合并。 Map端输入文件合并 合并Map端输入的小文件,是指将多个小文件划分到一个切片中
HQL语法优化之任务并行度
对于一个分布式的计算任务而言,设置一个合适的并行度十分重要。Hive的计算任务由MapReduce完成,故并行度的调整需要分为Map端和Reduce端。
HQL语法优化之数据倾斜
数据倾斜问题,通常是指参与计算的数据分布不均,即某个key或者某些key的数据量远超其他key,导致在shuffle阶段,大量相同key的数据被发往同一个Reduce,进而导致该Reduce所需的时间
下一页
个人成就
文章被点赞
8
文章被阅读
19,876
掘力值
368
关注了
0
关注者
5
收藏集
0
关注标签
6
加入于
2023-05-28