本文由阿里云代理商【聚搜云】撰写
简介:TG@luotuoemo
1. MaxCompute近实时数仓
MaxCompute提供了近实时数仓解决方案,适用于分钟级或小时级的近实时数据处理。其核心功能包括:
- Delta Table增量表格式:支持分钟级数据导入和UPSERT语义,能够提供标准的CDC(Change Data Capture)方式读写增量数据。
- 增量计算:基于Delta Table,MaxCompute提供了增量物化视图(Materialized View)、Time Travel以及Stream Table等增量计算能力,用户可以根据需求调整刷新频率。
- MCQA 2.0查询加速:支持SQL全功能(包括DDL和DML),通过全链路缓存和异步优化手段,实现查询秒级返回。
2. 实时计算Flink版
阿里云的实时计算Flink版是基于Apache Flink的高性能Serverless实时大数据处理系统,适用于大规模数据的实时分析。其主要特点包括:
- 高性能与低延迟:支持单核CPU每秒数十万条记录处理能力,端到端亚秒级数据处理延迟。
- 弹性扩缩容:基于Serverless架构,支持作业弹性扩缩容,无需修改硬件配置。
- 丰富的数据连接器:支持多种数据源和目标,包括MaxCompute、OSS等。
3. 流式数据通道服务
MaxCompute的流式数据通道服务支持高并发、大批量的流式数据写入,适用于以下场景:
- 事件日志实时写入:日志采集数据直接写入MaxCompute进行批量处理,无需中间存储服务。
- 流式计算结果实时写入:解除并发数和
batch size的限制,避免高并发抢锁和小文件问题。 - 流式存储服务实时同步:支持从DataHub、Kafka等流式存储服务实时同步数据到MaxCompute。
4. 数据总线DataHub
DataHub是阿里云提供的流数据处理平台,支持流式数据的发布、订阅和分发。其主要功能包括:
- 流数据采集与处理:支持从各种数据源(如移动设备、传感器、日志等)持续采集流式数据。
- 与流计算引擎集成:无缝连接阿里云流计算引擎StreamCompute,支持使用SQL进行流数据分析。
- 数据归档:支持将流式数据归档到MaxCompute或OSS。
5. Fluss流存储
Fluss是阿里云面向实时分析设计的下一代流存储,支持湖流一体架构。其核心特性包括:
- 实时流读写与列式裁剪:支持实时流式数据的读写操作,优化查询性能。
- Union Read:流存储与湖存储数据共享,支持实时数据与历史数据的无缝切换。
- 与Lakehouse集成:支持Spark、StarRocks、Trino等查询引擎,无缝融入用户已有的Lakehouse架构。