关于ClickHouse列式存储的那些事（二）| 青训营ClickHouse采用列式存储,每一列数据独立存储在一起,通过

ClickHouse采用列式存储,每一列数据独立存储在一起,通过压缩提高读取效率。

表由多个数据部分组成,每个数据部分对应一个块,每个块进一步分为一系列分块,每个分块对应一列。这种设计减小随机访问开销。

Copy

Table
   |- Data Part 1  
       |- Block 1
           |- Column Chunks
       |- Block 2  
           |- Column Chunks
   |- Data Part 2

索引设计

每个表创建主键索引和辅助索引:

此外还支持超文本索引、功能索引等不同类型的索引加速查询。

典型使用场景

sql

Copy

SELECT 
    count(),
    sum(response_length)
FROM apache_logs
GROUP BY counter_id

sql

Copy

CREATE TABLE metrics ON CLUSTER sharded_cluster

sql

Copy

SELECT 
  SUM(amount)
FROM orders 
GROUP BY date, region

sql

Copy

INSERT INTO iot_data 
  VALUES 
  ('sensor1', toDateTime(now()), 20)

总体来说,ClickHouse通过其优异的列存储和索引设计,为大数据实时查询和分析提供了高性能的解决方案。目前广泛应用在以上典型场景中。 ClickHouse支持实时数据的写入和查询。

关于实时写入,ClickHouse主要通过以下方式实现:

关于实时查询,ClickHouse通过以下优势实现毫秒级响应:

总结来说,结合高吞吐写入和低延迟实时查询两个优势,ClickHouse完全满足大数据实时处理和即席查询的需求场景。目前很多公司都在生产环境成功应用它用于实时数据中心。