获得徽章 7
#每天一个知识点# Flink SQL在Calcite原生的SqlWindowTableFunction的基础上加了指示窗口时间的三列,即window_start、window_end和window_time。
#每天一个知识点# Flink SQL 引入了computed column的概念,其语法为 column_name AS computed_column_expression,它的作用是在表中产生数据源 schema 不存在的列,并且可以利用原有的列、各种运算符及内置函数。比如在以上 SQL 语句中,就利用内置的 PROCTIME() 函数生成了处理时间列,并利用原有的 ts 字段与 FROM_UNIXTIME()、TO_TIMESTAMP() 两个时间转换函数生成了事件时间列。
#每天一个知识点# Flink CDC 的全称是 Change Data Capture ,在广义的概念上,只要是能捕获数据变更的技术,我们都可以称之为 CDC 。目前通常描述的 CDC 技术主要面向数据库的变更,是一种用于捕获数据库中数据变更的技术
#每天一个知识点# RANGE BETWEEN INTERVAL '5' MINUTE PRECEDING AND CURRENT ROW来定义了一个宽度为5分钟的滚动窗口,会计算从最近的数据点开始往前5分钟内所有数据点的平均值
#每天一个知识点# Hive SQL中可以使用窗口函数来实现滚动窗口。窗口函数需要使用OVER关键字以及PARTITION BY和ORDER BY子句来定义窗口的分区和排序方式。通过使用滚动窗口函数,可以对窗口内的数据进行聚合操作,如SUM、AVG、MAX、MIN等。
#每天一个知识点# 大数据入门的话有什么资料推荐么
#每天一个知识点# 使用 map join 的前提是两个表做关联时需要有一个表是可以加载到内存的小表。这样 join 可以在一个 mapper 里面完成,而不需要 reduce。
#每天一个知识点# hive 自定义udf 函数对开发语言有限制吗
#每天一个知识点# hive分桶的优势在于数据文件的大小是几乎一样的,map 端的 join 在分桶表上执行的速度会比分区表快很多。在做 map 端 join 时,处理左侧表的 map 知道要匹配的右表的行在相关的桶中,因此只需要检索该桶即可。
#每天一个知识点# 阿里云dataworks 多个环境之间怎么控制版本?
#每天一个知识点# 窗口函数通常在需要对数据进行分组汇总计算时使用,因此与聚集函数有一定的相似性。但与聚集函数不同的是,聚集函数通过对数据进行分组,仅能够输出分组汇总结果,而原始数据则无法展现在结果中,而窗口函数则可以同时将原始数据和聚集分析结果同时显示出来
#每天一个知识点# ODPS的update操作会转换为delete+insert into的实现逻辑
#每天一个知识点# git stash会把所有未提交的修改(包括暂存的和非暂存的)都保存起来,用于后续恢复当前工作目录。
比如中间状态,通过git stash命令推送一个新的储藏,当前的工作目录就干净了。
#每天一个知识点# 大数据涉及分区表的时候,分区字段多的话有什么影响吗
#每天一个知识点# 查询数据的时候,尽可能的少用甚至不用模糊匹配,或者范围查询
#每天一个知识点# 大数据验证数据准确性有什么好的方法吗,暂时没有数据测试
#每天一个知识点# 数据仓库的血缘关系太重要了,一团乱麻
#每天一个知识点# hive 里面lag over 开窗函数可以替代很多表的自连接操作,且效率更高
下一页