首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据技术与数仓
掘友等级
大数据开发工程师
公众号【大数据技术与数仓】首发
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
32
文章 32
沸点 0
赞
32
返回
|
搜索文章
大数据技术与数仓
大数据开发工程师
·
3年前
关注
Flink1.11中的CDC Connectors操作实践
Flink1.11引入了CDC的connector,通过这种方式可以很方便地捕获变化的数据,大大简化了数据处理的流程。Flink1.11的CDC connector主要包括...
3
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
数仓面试|四个在工作后才知道的SQL密技
SQL是大数据从业者的必备技能,大部分的大数据技术框架也都提供了SQL的解决方案。可以说SQL是一种经久不衰、历久弥新的编程语言。尤其是在数仓领域,使用SQL更是家常便饭。...
5
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
Kafka生产者ack机制剖析
Kafka有两个很重要的配置参数,acks与min.insync.replicas .其中acks是producer的配置参数,min.insync.replicas是Br...
2
4
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
数仓|Hive性能调优指北
在企业中使用Hive构建离线数仓是一种十分普遍的方案。尽管Hive的使用场景是通过批处理的方式处理大数据,通常对处理时间不敏感。但是在资源有限的情况下,我们需要关注Hive...
1
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
历史拉链表实战
历史拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的。所谓历史拉链表,就是指记录一个事物从开始一直到当前状态的所有变化信息。拉所有记录链表可以避免按每...
2
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
经典Hive-SQL面试题
第一题 需求 实现 数据准备 查询SQL 第二题 需求 实现 数据准备 查询SQL实现 第三题 需求 实现 数据准备 查询SQL 第四题 需求 实现 数据准备 查询SQL ...
1
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
使SQL更易于阅读的几个小技巧
无论是数仓开发还是数据分析,写一手好的SQL是一项基本的技能。毋庸置疑,编写性能较好的SQL是非常重要的,但是,SQL的可读性同样是不容小觑的。一个有着混乱格式的SQL脚本...
4
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
第十七篇|基于Canal与Flink实现数据实时增量同步(二)
本文主要从Binlog实时采集和离线处理Binlog还原业务数据两个方面,来介绍如何实现DB数据准确、高效地进入Hive数仓。 在数据仓库建模中,未经任何加工处理的原始业务...
1
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
第十六篇|基于Canal与Flink实现数据实时增量同步(一)
canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。 can...
1
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
第十五篇|Flink的Window全面解析
窗口是流式计算中非常常用的算子之一,通过窗口可以将无限流切分成有限流,然后在每个窗口之上使用计算函数,可以实现非常灵活的操作。Flink提供了丰富的窗口操作,除此之外,用户...
2
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
第十四篇|Flink SQL之维表join
维表是数仓中的一个概念,维表中的维度属性是观察数据的角度,在建设离线数仓的时候,通常是将维表与事实表进行关联构建星型模型。在实时数仓中,同样也有维表与事实表的概念,其中事实...
1
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
第十三篇|你真的了解Flink Kafka source吗?
Flink 提供了专门的 Kafka 连接器,向 Kafka topic 中读取或者写入数据。Flink Kafka Consumer 集成了 Flink 的 Checkp...
3
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
第十二篇|Flink内部Exactly Once三板斧 状态、状态后端与检查点
Flink是一个分布式的流处理引擎,而流处理的其中一个特点就是7X24。那么,如何保障Flink作业的持续运行呢?Flink的内部会将应用状态(state)存储到本地内存或...
1
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
第十一篇| Flink的状态后端(State Backends)
当使用checkpoint时,状态(state)会被持久化到checkpoint上,以防止数据的丢失并确保发生故障时能够完全恢复。状态是通过什么方式在哪里持久化,取决于使用...
1
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
第十篇|Flink的时间与watermarks详解
当我们在使用Flink的时候,避免不了要和时间(time)、水位线(watermarks)打交道,理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义?...
2
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
第九篇|Flink的八种分区策略源码解读
Flink包含8中分区策略,这8中分区策略(分区器)分别如下面所示,本文将从源码的角度一一解读每个分区器的实现方式。 基于上下游Operator的并行度,将记录以循环的方式...
1
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
第八篇| Flink1.10集成Hive快速入门
Hive 是大数据领域最早出现的 SQL 引擎,发展至今有着丰富的功能和广泛的用户基础。之后出现的 SQL 引擎,如 Spark SQL、Impala 等,都在一定程度上提...
1
评论
分享
大数据技术与数仓
大数据开发工程师
·
3年前
关注
第七篇|Flink Table API&SQL编程指南之时间属性(3)
Flink总共有三种时间语义:Processing time(处理时间)、Event time(事件时间)以及Ingestion time(摄入时间)。关于这些时间语义的具...
1
评论
分享
下一页
个人成就
文章被点赞
116
文章被阅读
54,280
掘力值
1,428
关注了
10
关注者
148
收藏集
0
关注标签
3
加入于
2019-08-23