一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第4天,点击查看活动详情。
1. Doris概述篇
1.1 前言
Doris由百度大数据部研发,之前叫百度Palo,于2017年开源,2018年贡献到 Apache 社区后,更名为Doris。
1.2 Doris 简介
Apache Doris是一个现代化的基于MPP(大规模并行处理)技术的分析型数据库产品。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似) 。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。
Apache Doris可以满足多种数据分析需求,例如固定历史报表,实时数据分析,交互式数据分析和探索式数据分析等。令您的数据分析工作更加简单高效。
MPP ( Massively Parallel Processing ),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。简单来说,MPP 是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果 ( 与 Hadoop 相似 )。
1.3 核心特性
-
基于MPP(大规模并行处理)架构的分析型数据库
-
性能卓越,PB级别数据毫秒/秒级响应
-
支持标准SQL语言,兼容MySQL协议
-
向量化执行器
-
高效的聚合表技术
-
新型预聚合技术Rollup
-
高性能、高可用、高可靠
-
极简运维,弹性伸缩
1.4 Doris特点
- 性能卓越
TPC-H、TPC-DS性能领先,性价比高,高并发查询,100台集群可达10w QPS,流式导入单节点50MB/s,小批量导入毫秒延迟
- 简单易用
高度兼容MySql协议;支持在线表结构变更高度集成,不依赖于外部存储系统
- 扩展性强
架构优雅,单集群可以水平扩展至200台以上
- 高可用性
多副本,元数据高可用