南大通用云数据仓库 GBase Cloud Data Warehouse(简称 GCDW)是一款自主研发的云原生数据仓库。GCDW 采用存算分离架构,支持计算资源和存储资源的弹性伸缩、无限独立扩展,适用于公有云和私有云上分析类型的大数据平台、综合性 BI 系统、数据仓库和集市系统。本文从架构、核心概念、核心价值等方面对 GCDW 进行简要介绍。
一、产品架构
1.核心架构特点
采用存储、计算分离的架构,存算独立部署且可独立扩展;具备统一元数据服务,计算集群、管理集群无状态,无需进行数据重分布,秒级扩容;支持物理多租户。
2.主要组成部分
云服务:用户的接入和访问控制窗口,Web 管理界面;负责创建/删除云数仓库实例;提供管理和运维服务能力;统一元数据的管理和存储;
虚拟仓库:负责管理不同规格计算资源,不同规格的计算资源算力,缓存临时数据。
数据存储:提供分布式对象存储能力,用于持久化云数据仓库数据文件,提供查询过程中临时表数据的缓存。
二、概念
1.GCDW 实例:独立运行的一整套服务。
2.warehouse:计算资源仓库,用于给用户提供算力。
3.计算集群:也称为计算单元, warehouse 中一组计算节点,虚拟数仓的实体。
4.计算节点:warehouse 中提供计算的节点,相当于 Gbase 8a 中去除存储的 gnode 节点。
5.角色:权限的载体,可以被看作是一组权限,将角色分配给用户,用户则拥有角色的一组权限。
6.租户:租用 GCDW 服务的客户,相当于拥有者,企业的法人。每个租户对应一个 GCDW 实例,租户之间各有各的实例,完全资源隔离。
7.用户:连接租户实例的数据库用户,数据仓库的操作者。
8.OWNER:数据库对象的拥有者。
三、核心价值
解决的问题:能够实现秒级扩缩容;GCDW 一份数据,实时共享,解决数据冗余问题;可以增加计算集群承载不同业务,高并发支持。
1.极致弹性:不限容量,随时扩展,解决数据仓库容量问题,并且对虚拟仓库的大小规格化,不需用户去选择扩展节点和定义计算资源,便于用户使用。
2.扩展能力:租户的计算资源可以自己管理,通过 SaaS 服务界面控制和管理自己的虚拟数仓,包括扩容,缩容,创建多个虚拟数仓。
一个实例内可以扩充多个虚拟数仓
一个虚拟数仓内扩充多个计算集群
一个计算集群内扩充计算节点
3.结构化 + 半结构化处理能力:支持对半结构化数据的存储和计算,如 JSON 和 XML 等嵌套类型数据的字段提取、结构展开等。
4.高安全性:提供客户端连接加密,数据传输加密以及数据存储加密;提供完善的用户、角色和账号控制策略
5.数据共享:对于不同实例之间的存储数据可以实现共享使用,减少数据冗余。
四、核心功能
1.租户管理:创建、删除、修改、冻结以及解冻。
2.用户管理:创建角色、删除角色、设置角色的继承关系;创建用户、删除用户等。
3.计算资源管理:创建 warehouse、删除 warehouse、修改 warehouse、唤醒 warehouse、查询 warehouse 以及挂起 warehouse。
4.数据管理:数据导出,数据加载。
5.SQL 开发
6.Web 客户端