01.大数据集群规模预估
适用于中小型企业,仅供参考!!!
一、磁盘容量预估
- 用户数基本固定
- 总用户数(个):A
- 每个用户每天产生的数据条数(条):B
- 每条数据的大小(KB):C
- 日均数据总量(TB):D = A·B·C/1024/1024/1024
- 数据保留时间(天):E
- 副本数(个):F
- 预留大小(百分比):G
- 数仓分层(扩容倍数):H
- 历史数据量(TB):I
- 压缩(snappy):20%
- 计算公式
- 所需磁盘总量(TB) = D·E·F(1+G)H+I
- 压缩后:D·E·F(1+G)H+I*20%
- 举例:
- 用户数不固定,处于增长期
- 存量用户数(个):A
- 平均日增加用户数(个):B (需要数据分析师结合公司业务的发展情况进行预测,很可能是一个逻辑斯蒂增长模型。当然了,一步到位的方式还是挺浪费资源的,万一...)
- 每个用户每天产生的数据条数(条):C
- 每条数据的大小(KB):D
- 数据保留时间(天): E
- 副本数(个): F
- 预留大小(百分比): G
- 数仓分层(扩容倍数): H
- 历史数据量(TB):I
- 压缩(snappy):20%
- 计算公式
- 所需磁盘总量(TB) = (A·E+B(E(E+1)/2))C·D/1024/1024/1024·F(1+G)H+I
- 压缩后:((A·E+B(E(E+1)/2))C·D/1024/1024/1024·F(1+G)H+I)*20%
- 例如:
二、内存容量预估
- 常规选择
- 根据需求定制
- 根据任务量预估
- 离线任务 + 实时任务
- 1/4日均数据总量 + 5GB(每秒查询率*窗口大小)
- 例如:
- 共需内存:1/4*2.79TB + 5GB = 719.24GB
- 主服务器:2 * 128GB = 256GB
- 从服务器:16 * 64GB = 1024GB
三、CPU核数预估
- 常规选择
- 16核32线程
- 20核40线程
- 32核64线程
- 40核80线程
- 根据需求定制
- 核心数:内存 = 1:4
- 例如:
- 主服务器:2 * 32核
- 从服务器:16 * 20核
四、网络带宽