ClickHouse，减少了查询时的 IO 操作，是如何减少的

2024-07-01 132 阅读3分钟

ClickHouse 减少查询时的 IO 操作主要通过以下几种方式实现： compressed_WX20240701-182411@2x.png

列式存储

列式存储模型：
- ClickHouse 将同一列的数据存储在一起，而不是将整行的数据存储在一起。这意味着查询只需要读取相关列的数据，而不需要读取整个表的数据，从而减少了不必要的 IO 操作。例如，在进行 SELECT 列名 FROM 表名查询时，ClickHouse 只需读取所选列的数据。

数据压缩

高效的数据压缩：
- 由于列中存储的数据类型一致，ClickHouse 可以使用更高效的压缩算法来压缩数据。这不仅减少了磁盘空间的使用，还减少了查询时的 IO 操作，因为需要读取的数据量变小了。常见的压缩算法包括 LZ4、ZSTD 等。

索引和标记文件

索引和标记文件（Mark Files）：
- ClickHouse 会为每个数据块创建索引和标记文件，这些文件包含每个数据块的统计信息和偏移量。在查询时，ClickHouse 可以利用这些标记文件快速定位到需要读取的数据块，而不是扫描整个数据文件。例如，使用 MergeTree 引擎时，可以配置 index_granularity 来控制索引的粒度。

数据分区和分片

数据分区和分片：
- ClickHouse 支持对数据进行分区和分片，用户可以根据查询条件将数据划分到不同的分区中。在查询时，只需要读取相关分区的数据，从而减少了不必要的 IO 操作。例如，使用 PARTITION BY 子句可以将数据按日期或其他维度进行分区。

向量化查询引擎

向量化查询引擎：
- ClickHouse 的查询引擎是向量化的，这意味着它可以一次处理多个数据值，而不是逐行处理。这种方式可以有效地利用 CPU 缓存，减少内存和磁盘之间的数据传输，从而减少 IO 操作。

数据读取策略

智能的数据读取策略：
- ClickHouse 在查询时会进行多线程并发读取，并利用内存缓存（如 mark_cache 和 uncompressed_cache）来加速数据读取。这些缓存可以存储常用的索引和未压缩的数据块，从而减少对磁盘的访问频率。

查询优化

查询优化：
- ClickHouse 会对查询进行优化，通过将查询下推到存储引擎层面、避免不必要的数据扫描、以及提前终止无效查询等方式来减少 IO 操作。例如，在进行过滤条件查询时，ClickHouse 可以利用索引和标记文件快速跳过不符合条件的数据块。

总结

通过上述方式，ClickHouse 能够显著减少查询时的 IO 操作，提高查询性能。这些优化措施使得 ClickHouse 在处理大规模数据分析和实时查询时表现出色。