ClickHouse为什么这么火?

1,093 阅读4分钟

这是我的第88篇原创\

昨天参加了ClickHouse第二次线上大会,绝大多数时间都是俄罗斯老哥飙着带拐弯的俄罗斯口音英语,有点蒙圈。本来还想偷师,结果水平实在是不行,没听懂。

好在之前就已经了解过一些,要不昨天还白听了。

OLAP届的新秀

数据处理现在还是分为OLTP和OLAP。

OLTP(在线事务处理)优化的方向是高并发、高可用,是精确,是各种增删改查。所以面临和解决的问题都是怎么解决高并发下的增删改查,怎么解决脏读、脏写,保证数据一致性等问题。

OLAP(在线分析处理)的优化方向则是高速数据处理能力、高速读取能力。一般又分为两个优化方向,一个是预先计算好各个维度的数据,存成CUBE,分析的时候直接查询结果就行,这是MOLAP(Multidimensional OLAP,多维在线分析处理),典型代表的是Kylin。一个是结构化存好,然后用尽各种方法优化,分析的时候拼命计算,这是ROLAP(Relational OLAP,关系型在线分析处理),典型代表就是ClickHouse了。

ClickHouse有多火?在大数据领域,这个CK可是比内裤的CK更有吸引力的多!给你两张图感受一下:

注意看最后一个哈,经验不限,20-40K!

ClickHouse的特性

我以前是非常摒弃ROLAP的,因为实在是太慢了。ROLAP都是现算的,以前的套路基本都是生成一个巨复杂的sql扔到数据库里跑,那样能不慢么?

但是这个ClickHouse却不一样,它最显著的特性就是快!这不科学啊!

上图来自于Clickhouse-百分点分享

虽然各种测评都会选择偏向自己的指标,但是这也太悬殊了吧?ClickHouse的创始人yandex公司的同事出来解释过,有点让我失望,并不是一个非常牛的算法或者方案,而是从硬件开始向上一点一点的优化。是不是特别惊讶?

所以ClickHouse另外一个特性就是独立,不需要任何组件的依赖,貌似现在都有往这方面发展的趋势,比如Doris也是不需要依赖的。我们知道Kylin是需要依赖Hbase的。这就会引起各种各样的组件版本问题。想想就头大!

ClickHouse在运行的时候,会用掉服务器的所有资源,不仅仅是内存哦!甚至你查一个简单但是数据,都会吃掉50%以上的CPU!!!

另外,CK还有以下特性:

  • PB级数据处理能力
  • 列式数据存储
  • 优秀的数据压缩
  • 多核并行处理
  • 多服务器分布式处理
  • SQL支持(部分语句有点怪)
  • 向量化引擎
  • 支持实时数据更新
  • 高吞吐写入
  • 近似计算
  • 少依赖,上手非常容易

至于不支持事务处理、不太支持删除、修改等问题,这根本就是不OLAP的需要好么?虽然说数仓也偶然会有改数据的可能,但要支持的那么好干啥?对吧?

ClickHouse的应用和支持

ClickHouse有中文社区,点击访问ClickHouse中文社区。\

ClickHouse除了完成ROLAP基础操作之外,还可以结合各种技巧完成各种骚操作。

苏宁用CK结合bitmap做标签圈人和用户画像:

腾讯用CK来做实时、精准的游戏在线实时OLAP分析:

字节用CK搭建数据中台。

这么火的东东,你确定不了解一下?相关资料都给你准备好了,后台回复“CK”就能获取ClickHouse大会所有资料~~~

配合以下文章享受更佳

资料包 | 数据仓库建设全套资料包

经验 | 贝壳的数据中台工程架构实践之大数据开发平台

资料包 | 数据中台建设方案全套资料来了

我需要你的点赞,爱你哟