大数据今日份思考

90 阅读2分钟

建设数据仓库主要关注三个方面(存储、模型和流向)

来源存储(平台层)存储(应用层)应用
MySQL、binlog、kafka、RestAPI 定制化的协议Hive、Minio、clickHouse、GreenPlum等等Mysql等与系统业务相关的数据库、API等支撑上层应用

大数据相关组件介绍

ClickHouse

ClickHouse由俄罗斯第一大搜索引擎Yandex于2016年6月发布, 开发语言为C++,ClickHouse是一个面向联机分析处理(OLAP)的开源的面向列式存储的DBMS,简称CK, 与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,查询性能非常好,使用之后会被它的性能折服,非常值得安利。

特点:支持OLAP面向联机分析处理的列式存储DBMS,查询性能非常好

Greenplum

开源的列式存储数据库,支持使用SQL的方式来进行查询 官网上介绍:支持存储文本、GIS、图、流式数据处理等,应用在非常广泛的区域,其最先是通过Postgre数据库演变过来的。 看官网上介绍,其对于数据迁移迁移非常方便

CDH

开源大数据的封装版本,目前官网已经没法下载 博客上有百度网盘的资源可下载,缺点就是很久之前的版本,各组件的版本比较老

OLAP和OLTP介绍

OLTP:(on-line transcation process)

联机事务分析,事务分析就是传统的CRUD增删改查操作,这种一般是支撑业务系统,但是当数据量大了之后用SQL进行分析就比较慢,尤其是语句的逻辑更加复杂之后,查询可能会造成数据库死机。

OLAP:(on-line Analytical process)

联机分析处理,顾名思义,这种主要是吃撑数据的分析工作,这里会用比较吃性能的一些操作,join ,聚集函数,开窗函数等等。

image.png