ES->ClickHouse

1. 动机是什么

2. 分别的侧重点和不同是什么

3. 什么是ClickHouse、Druid、ES？

Druid：多维OLAP, 数据语句和处理，预先定义维度，场景固定，效率高 ClickHouse：关系OLAP,即时计算，查询模式不固定，灵活性好，数据较大或query复杂时，性能不一定稳定 OLAP引擎：Hive、SparkSQL、FlinkSQL、Clickhouse、Elasticsearch、Druid、Kylin、Presto、Impala、Doris。

4. 聚合分析场景都有哪些？

sum、count、聚合等

5. 什么是索引、索引分片？

juejin.cn/post/684490… 分片：如果一个索引包含海量文档，则不能在单个节点存储。ES 提供分片机制，同一个索引可以存储在不同分片（数据容器）中。一份数据(同一个index的doc)会被分散存档到多个分片中(解决单节点磁盘容量问题)，同一个分片又有一个或多个副本(解决节点故障，数据丢失问题)

6. loki存储方式是什么

7. MPP架构是什么？集群稳定

大型并行处理架构，可以通过扩大并发来增加计算资源。

8. 分区索引、跳数索引(二级索引)

阅读笔记

日志采集：物理机、容器、特殊分类日志问题：应用数量多，打印日志多，保存时间长(半年以上)，ES集群扩容成本和维护工作量剧增

ES存储方案问题：每个域日志以天粒度在ES创建一个索引，索引分片小于30G。域日志量大/超长，占用节点CPU，影响其他域日志写入，导致吞吐下降。 ES对所有日志的分词索引，大多数是无效的，日志越多，这个分词消耗的资源越浪费。带来的问题：排查问题域困难，移动索引、创建索引耗时长，索引膨胀比较大

选择ClickHouse原因：吞吐和压缩率非常高、批量写入和列式存储

扩展：添加标签、跳数索引、查询函数、多节点并发查询、多字段存储

[阅读笔记]日志系统成本飙升千万，吓得我赶紧把ES换成ClickHouse