ClickHouse安装、简介及使用

183 阅读4分钟

@[TOC]

一、简介

1、什么是ClickHouse

ClickHouse是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

官网:https://clickhouse.com/ 官方文档:https://clickhouse.com/docs/en/intro

2、什么是OLAP

OLAP(On-line Analytical Processing):联机分析处理。

OLAP场景要求在大型数据集上对具有以下特征的复杂分析查询进行实时响应:

  • 数据集可能是海量的——数十亿或数万亿行
  • 数据组织在包含许多列的表中
  • 只选择几列来回答任何特定的查询
  • 结果必须以毫秒或秒为单位返回

OLAP的特性:

  • 读多于写。将数据批量/实时写入后,后续可以进行任意维度的灵活搜索、洞察等。
  • 大宽表。一张存在N多列的表,平时使用时可能只用到其中的部分字段。
  • 数据批量/实时写入。数据很少更新。
  • 查询条件灵活多变。不需要预先建模。
  • 更多的是单表处理。
  • 事务不是必须的。
  • 查询结果明显小于源数据。

3、列式存储特性

列式存储是一种数据存储方式,它将数据按照列进行组织。在列式存储中,每一列的数据是在存储介质中是连续存储的,而不是像行式存储那样,将数据按照行的形式组织。这种存储方式特别适合于数据分析和处理,因为它可以显著降低磁盘的读写次数,提高数据处理的效率。

行式存储:数据以行的形式存储,将一整行数据作为一个存储单元。这种方式在写入性能方面较高,因为写入是一次完成的。但在读取性能方面,如果只读取少数几列,需要遍历其他无关列,所以IO开销较大。读取整行数据时,按存储顺序依次读取即可,性能较高。

列式存储:数据以列为单位进行存储,将每个字段独立存储。这种方式在读取性能方面较高,因为读取少数几列时,不需要读取无关列,所以性能高。读取整行时,需要分别读取所有列,并且拼装成行,所以性能低。在数据压缩方面,因为数据是以列为单位进行存储的,而同一列的数据类型是相同的,所以对压缩算法友好,压缩效率高。

列式存储的优势体现在存储上能节约空间、减少IO,另一方面依靠列式数据结构做了计算上的优化。它特别适合于大规模数据分析场景,如数据仓库、商业智能等。

二、安装

1、官方文档

https://clickhouse.com/docs/en/install

2、docker安装

# 1、创建数据目录
mkdir -p /data/clickhouse/data
mkdir -p /data/clickhouse/conf
mkdir -p /data/clickhouse/log

# 2、下载
# 下载最新版本clickhouse
docker pull clickhouse/clickhouse-server
# 下载指定版本clickhouse
docker pull clickhouse/clickhouse-server:22.7.3.5-alpine

# 3、查看 Network ports | ClickHouse Docs 中端口号配置 ,暂时只需要映射8123(http-api) 9000(TCP) 两个端口

# 4、创建临时容器,用以生成配置文件
# 容器关闭后会自动删除掉
docker run -d --rm --name clickhouse-server --ulimit nofile=262144:262144 clickhouse/clickhouse-server:22.7.3.5-alpine

# 5、将配置文件复制到 /data/clickhouse/conf 路径下
docker cp clickhouse-server:/etc/clickhouse-server/config.xml /data/clickhouse/conf/config.xml
docker cp clickhouse-server:/etc/clickhouse-server/users.xml /data/clickhouse/conf/users.xml

# 6、修改config.xml的listen_host配置
vi /data/clickhouse/conf/config.xml
<listen_host>::</listen_host>

# 7、关闭临时容器
docker stop clickhouse-server

# 7、启动容器
docker run -d --name=clickhouse-server \
-p 8123:8123 -p 9090:9000 \
--ulimit nofile=262144:262144 \
-v /data/clickhouse/data:/var/lib/clickhouse:rw \
-v /data/clickhouse/conf/config.xml:/etc/clickhouse-server/config.xml \
-v /data/clickhouse/conf/users.xml:/etc/clickhouse-server/users.xml \
-v /data/clickhouse/log:/var/log/clickhouse-server:rw \
clickhouse/clickhouse-server:22.7.3.5-alpine

# 8、验证
docker exec -it clickhouse-server /bin/bash
/usr/bin/clickhouse-client

show databases;
quit;

3、核心目录

log日志:/var/log/clickhouse-server

bin目录:/usr/bin clickhouse-server:服务端启动器 clickhouse-client:客户端启动器

数据: /var/lib/clickhouse/data/库名/表名/数据 /var/lib/clickhouse/metadata/库名/表名/元数据/

conf配置:/etc/clickhouse-server/config.xml path中配置着数据目录。

4、clickhouse-client使用

常用参数: clickhouse-client --host=xxx:指向clickhouse服务的hostname; --port=9000:指向clickhouse服务的端口,默认9000; -m运行输入多行sql语法,不加-m的话,sql只能写在一行; -q 'select * from user':可以直接执行sql。

参考资料

blog.csdn.net/qq_25037929…