获得徽章 7
#每天一个知识点# Flink SQL在Calcite原生的SqlWindowTableFunction的基础上加了指示窗口时间的三列,即window_start、window_end和window_time。
#每天一个知识点# Flink SQL 引入了computed column的概念,其语法为 column_name AS computed_column_expression,它的作用是在表中产生数据源 schema 不存在的列,并且可以利用原有的列、各种运算符及内置函数。比如在以上 SQL 语句中,就利用内置的 PROCTIME() 函数生成了处理时间列,并利用原有的 ts 字段与 FROM_UNIXTIME()、TO_TIMESTAMP() 两个时间转换函数生成了事件时间列。
#每天一个知识点# Flink CDC 的全称是 Change Data Capture ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术
#每天一个知识点# RANGE BETWEEN INTERVAL '5' MINUTE PRECEDING AND CURRENT ROW来定义了一个宽度为5分钟的滚动窗口,会计算从最近的数据点开始往前5分钟内所有数据点的平均值
#每天一个知识点# Hive SQL中可以使用窗口函数来实现滚动窗口。窗口函数需要使用OVER关键字以及PARTITION BY和ORDER BY子句来定义窗口的分区和排序方式。通过使用滚动窗口函数,可以对窗口内的数据进行聚合操作,如SUM、AVG、MAX、MIN等。
#每天一个知识点# 大数据入门的话有什么资料推荐么
#每天一个知识点# 使用 map join 的前提是两个表做关联时需要有一个表是可以加载到内存的小表。这样 join 可以在一个 mapper 里面完成,而不需要 reduce。
#每天一个知识点# hive 自定义udf 函数对开发语言有限制吗
#每天一个知识点# hive分桶的优势在于数据文件的大小是几乎一样的,map 端的 join 在分桶表上执行的速度会比分区表快很多。在做 map 端 join 时,处理左侧表的 map 知道要匹配的右表的行在相关的桶中,因此只需要检索该桶即可。
#每天一个知识点# 阿里云dataworks 多个环境之间怎么控制版本?
下一页