首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据技术与数仓
掘友等级
大数据开发工程师
公众号【大数据技术与数仓】首发
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
32
文章 32
沸点 0
赞
32
返回
|
搜索文章
最新
热门
该如何设计数仓的DWS层
关于数据仓库的分层,似乎大家都有一个共同的认识。但涉及到每一层该如何去建模,可能每个人都有自己的理解。数据建模,毫无疑问是数仓建设的重中之重,然后,在实际的开发过程中,会把大量的时间都投入到了需求开发,往往会忽略数据建模(尤其是DWS层的建模),长此以往,数据模型变的越来越杂乱…
实时数仓|以upsert的方式读写Kafka数据——以Flink1.12为例
在某些场景中,比如GROUP BY聚合之后的结果,需要去更新之前的结果值。这个时候,需要将 Kafka 消息记录的 key 当成主键处理,用来确定一条数据是应该作为插入、删除还是更新记录来处理。在Flink1.11中,可以通过 flink-cdc-connectors 项目提供…
第十篇SparkStreaming手动维护Kafka Offset的几种方式
Spark Streaming No Receivers 方式的createDirectStream 方法不使用接收器,而是创建输入流直接从Kafka 集群节点拉取消息。输入流保证每个消息从Kafka 集群拉取以后只完全转换一次,保证语义一致性。但是当作业发生故障或重启时,要保…
Spark的五种JOIN策略解析
JOIN操作是非常常见的数据处理操作,Spark作为一个统一的大数据处理引擎,提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略,希望对你有所帮助。本文主要包括以下内容: 参与JOIN的数据集的大小会直接影响Join操作的执行效率。同样,也会影响JO…
Spark SQL百万级数据批量读写入MySQL
Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比,应优先使用此功能。这是因为结果作为DataFrame返回,它们可以在Spark SQL中轻松处理或与其他数据源连接。JDBC数据源也更易于使用Java或Python,因为它不需要…
篇五|ClickHouse数据导入(Flink、Spark、Kafka、MySQL、Hive)
本文主要介绍如何通过Spark程序写入数据到Clickhouse中。 主要是使用ClickHouse的表引擎。 kafka_broker_list :逗号分隔的brokers地址 (localhost:9092). kafka_topic_list :Kafka 主题列表,多个…
篇四|ClickHouse的可视化界面与集群状态监控
⾼亮语法的编辑器。 ⾃动命令补全。 查询命令执⾏的图形分析⼯具。 配⾊⽅案选项。 除此之外,还可以使用DBeaver连接ClickHouse,本文主要介绍这两种工具的使用方式。 地址为:https://github.com/tabixio/tabix。在浏览器打开下面链接 在这…
篇三|ClickHouse的数据类型
ClickHouse提供了许多数据类型,它们可以划分为基础类型、复合类型和特殊类型。我们可以在system.data_type_families表中检查数据类型名称以及是否区分大小写。 固定长度的整数类型又包括有符号和无符号的整数类型。 有符号的定点数,可在加、减和乘法运算过程…
篇二|什么是ClickHouse的表引擎?
在上一篇分享中,我们介绍了ClickHouse的安装部署和简单使用。本文将介绍ClickHouse中一个非常重要的概念—表引擎(table engine)。如果对MySQL熟悉的话,或许你应该听说过InnoDB和MyISAM存储引擎。不同的存储引擎提供不同的存储机制、索引方式、…
篇一|ClickHouse快速入门
ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。ClickHouse最初是一款名为Yandex.Metrica的产品,主要用于WEB流量分析。ClickHouse的全称是Click Stream,Data WareHouse,简称ClickH…
下一页
个人成就
文章被点赞
131
文章被阅读
61,928
掘力值
1,486
关注了
10
关注者
158
收藏集
0
关注标签
3
加入于
2019-08-23