建设数据仓库主要关注三个方面(存储、模型和流向)
| 来源 | 存储(平台层) | 存储(应用层) | 应用 |
|---|---|---|---|
| MySQL、binlog、kafka、RestAPI 定制化的协议 | Hive、Minio、clickHouse、GreenPlum等等 | Mysql等与系统业务相关的数据库、API等 | 支撑上层应用 |
大数据相关组件介绍
ClickHouse
ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK, 与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,查询性能非常好,使用之后会被它的性能折服,非常值得安利。
特点:支持OLAP面向联机分析处理的列式存储DBMS,查询性能非常好
Greenplum
开源的列式存储数据库,支持使用SQL的方式来进行查询 官网上介绍:支持存储文本、GIS、图、流式数据处理等,应用在非常广泛的区域,其最先是通过Postgre数据库演变过来的。 看官网上介绍,其对于数据迁移迁移非常方便
CDH
开源大数据的封装版本,目前官网已经没法下载 博客上有百度网盘的资源可下载,缺点就是很久之前的版本,各组件的版本比较老
OLAP和OLTP介绍
OLTP:(on-line transcation process)
联机事务分析,事务分析就是传统的CRUD增删改查操作,这种一般是支撑业务系统,但是当数据量大了之后用SQL进行分析就比较慢,尤其是语句的逻辑更加复杂之后,查询可能会造成数据库死机。
OLAP:(on-line Analytical process)
联机分析处理,顾名思义,这种主要是吃撑数据的分析工作,这里会用比较吃性能的一些操作,join ,聚集函数,开窗函数等等。