Python与大数据

大数据开发工程师

赞

1

|

搜索文章

PyFlink从入门到精通

PyFlink学习大纲 PyFlink简介什么是PyFlink PyFlink是一个可以让我们用Python语言编写Flink程序的库。它提供了与Flink Java/Scala API等

2年前
2.9k
2
评论

Flink SQL DDL基本语法介绍

Flink SQL DDL（Data Definition Language）基本语法介绍。一、数据库创建数据库语法案例查询数据库修改数据库删除数据库 RESTRICT：删除非空数据库会

2年前
412
点赞
评论

Flink SQL DDL基本语法介绍

Flink SQL流处理中的表

Table API 和 SQL 是最上层的API，在Flink中这两种API被集成在一起，SQL执行的对象也是Flink中的表（Table），所以我们一般会认为它们是一体的。Flink是批流统一的处理

2年前
785
3
评论

Flink SQL流处理中的表

Chat2DB：超丝滑的智能且多功能的SQL客户端和报表工具

Chat2DB 智能的通用数据库SQL客户端和报表工具，适用于各种数据库。它是一款有开源免费的多数据库客户端工具，支持windows、mac本地安装，也支持服务器端部署，web网页访问。

2年前
1.9k
1
评论

Chat2DB：超丝滑的智能且多功能的SQL客户端和报表工具

Flink中的核心概念

一、并行度（Parallelism）并行子任务和并行度当要处理的数据量非常大时，可以把一个算子操作“复制”多份到多个节点，数据来了之后就可以到其中任意一个执行。

2年前
1.1k
点赞
评论

hive 中那些函数的用法！

Hive会将常用的逻辑封装成函数给用户进行使用，类似于Java中的函数。好处：避免用户反复写逻辑，可以直接拿来使用。

2年前
403
点赞
评论

HQL语法优化之其他优化

CBO优化 CBO是指Cost based Optimizer，即基于计算成本的优化。在Hive中，计算成本模型考虑到了

2年前
178
1
评论

HQL语法优化之小文件合并

小文件合并优化，分为两个方面，分别是Map端输入的小文件合并，和Reduce端输出的小文件合并。 Map端输入文件合并合并Map端输入的小文件，是指将多个小文件划分到一个切片中

2年前
145
点赞
评论

HQL语法优化之任务并行度

对于一个分布式的计算任务而言，设置一个合适的并行度十分重要。Hive的计算任务由MapReduce完成，故并行度的调整需要分为Map端和Reduce端。

2年前
186
点赞
评论

HQL语法优化之数据倾斜

数据倾斜问题，通常是指参与计算的数据分布不均，即某个key或者某些key的数据量远超其他key，导致在shuffle阶段，大量相同key的数据被发往同一个Reduce，进而导致该Reduce所需的时间

2年前
320
点赞
评论

个人成就

文章被点赞 8

文章被阅读 21,010

加入于

2023-05-28