ES->ClickHouse
1. 动机是什么
2. 分别的侧重点和不同是什么
3. 什么是ClickHouse、Druid、ES?
Druid:多维OLAP, 数据语句和处理,预先定义维度,场景固定,效率高 ClickHouse:关系OLAP,即时计算,查询模式不固定,灵活性好,数据较大或query复杂时,性能不一定稳定 OLAP引擎:Hive、SparkSQL、FlinkSQL、Clickhouse、Elasticsearch、Druid、Kylin、Presto、Impala、Doris。
4. 聚合分析场景都有哪些?
sum、count、聚合等
5. 什么是索引、索引分片?
juejin.cn/post/684490… 分片:如果一个索引包含海量文档,则不能在单个节点存储。ES 提供分片机制,同一个索引可以存储在不同分片(数据容器)中。 一份数据(同一个index的doc)会被分散存档到多个分片中(解决单节点磁盘容量问题),同一个分片又有一个或多个副本(解决节点故障,数据丢失问题)
6. loki存储方式是什么
7. MPP架构是什么?集群稳定
大型并行处理架构,可以通过扩大并发来增加计算资源。
8. 分区索引、跳数索引(二级索引)
阅读笔记
日志采集:物理机、容器、特殊分类日志 问题:应用数量多,打印日志多,保存时间长(半年以上),ES集群扩容成本和维护工作量剧增
ES存储方案问题:每个域日志以天粒度在ES创建一个索引,索引分片小于30G。域日志量大/超长,占用节点CPU,影响其他域日志写入,导致吞吐下降。 ES对所有日志的分词索引,大多数是无效的,日志越多,这个分词消耗的资源越浪费。 带来的问题:排查问题域困难,移动索引、创建索引耗时长,索引膨胀比较大
选择ClickHouse原因:吞吐和压缩率非常高、批量写入和列式存储
扩展:添加标签、跳数索引、查询函数、多节点并发查询、多字段存储