Clickhouse踩坑

1,207 阅读3分钟

在使用ClickHouse的过程中遇到过各种各样的问题,总结出来供大家参考。 

1)关闭Linux虚拟内存。在一次ClickHouse服务器内存耗尽的情况下,我们Kill掉占用内存最多的Query之后发现,这台ClickHouse服务器并没有如预期的那样恢复正常,所有的查询依然运行的十分缓慢。 通过查看服务器的各项指标,发现虚拟内存占用量异常。因为存在大量的物理内存和虚拟内存的数据交换,导致查询速度十分缓慢。关闭虚拟内存,并重启服务后,应用恢复正常。

 2)为每一个账户添加join_use_nulls配置。ClickHouse的SQL语法是非标准的,默认情况下,以Left Join为例,如果左表中的一条记录在右表中不存在,右表的相应字段会返回该字段相应数据类型的默认值,而不是标准SQL中的Null值。对于习惯了标准SQL的我们来说,这种返回值经常会造成困扰。 

3)JOIN操作时一定要把数据量小的表放在右边,ClickHouse中无论是Left Join 、Right Join还是Inner Join永远都是拿着右表中的每一条记录到左表中查找该记录是否存在,所以右表必须是小表。

 4)通过ClickHouse官方的JDBC向ClickHouse中批量写入数据时,必须控制每个批次的数据中涉及到的分区的数量,在写入之前最好通过Order By语句对需要导入的数据进行排序。无序的数据或者数据中涉及的分区太多,会导致ClickHouse无法及时的对新导入的数据进行合并,从而影响查询性能。 

5)尽量减少JOIN时的左右表的数据量,必要时可以提前对某张表进行聚合操作,减少数据条数。有些时候,先GROUP BY再JOIN比先JOIN再GROUP BY查询时间更短。 

6)ClickHouse版本迭代很快,建议用去年的稳定版,不能太激进,新版本我们在使用过程中遇到过一些bug,内存泄漏,语法不兼容但也不报错,配置文件并发数修改后无法生效等问题。 

7)避免使用分布式表,ClickHouse的分布式表性能上性价比不如物理表高,建表分区字段值不宜过多,太多的分区数据导入过程磁盘可能会被打满。

 8)服务器CPU一般在50%左右会出现查询波动,CPU达到70%会出现大范围的查询超时,所以ClickHouse最关键的指标CPU要非常关注。我们内部对所有ClickHouse查询都有监控,当出现查询波动的时候会有邮件预警。 

9)查询测试Case有:6000W数据关联1000W数据再关联2000W数据sum一个月间夜量返回结果:190ms;2.4亿数据关联2000W的数据group by一个月的数据大概390ms。

但ClickHouse并非无所不能,查询语句需要不断的调优,可能与查询条件有关,不同的查询条件表是左join还是右join也是很有讲究的。