关于MaxCompute的基本了解

204 阅读9分钟

大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 为您提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决海量数据计算问题,有效降低企业成本,并保障数据安全。

同时,DataWorks 和 MaxCompute 关系紧密,DataWorks 为 MaxCompute 提供了一站式的数据同步,任务开发,数据工作流开发,数据管理和数据运维等功能,详情请参见 DataWorks(原大数据开发套件)。

MaxCompute 主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。随着社会数据收集手段的不断丰富及完善,越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的海量数据(百 GB、TB 乃至 PB)级别。

在分析海量数据场景下,由于单台服务器的处理能力限制,数据分析者通常采用分布式计算模式。但分布式的计算模型对数据分析人员提出了较高的要求,且不易维护。使用分布式模型,数据分析人员不仅需要了解业务需求,同时还需要熟悉底层计算模型。MaxCompute 的目的是为您提供一种便捷的分析处理海量数据的手段,您可以不必关心分布式计算细节,便可达到分析大数据的目的。

MaxCompute 已经在阿里巴巴集团内部得到大规模应用,例如:大型互联网企业的数据仓库和 BI 分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。

产品优势

大规模计算存储

MaxCompute 适用于 100GB 以上规模的存储及计算需求,最大可达 EB 级别。

多种计算模型

MaxCompute 支持 SQL、MapReduce、Graph 等计算类型及 MPI 迭代类算法。

强数据安全

MaxCompute 已稳定支撑阿里全部离线分析业务7年以上,提供多层沙箱防护及监控。

低成本

与企业自建私有云相比,MaxCompute 的计算存储更高效,可以降低 20%-30% 的采购成本。

功能概述

数据通道

支持批量、历史数据通道 TUNNEL 是 MaxCompute 为您提供的数据传输服务,提供高并发的离线数据上传下载服务。支持每天 TB/PB 级别的数据导入导出,特别适合于全量数据或历史数据的批量导入。Tunnel 提供 Java 编程接口供您使用,并且在 MaxCompute 的客户端工具中,有对应的命令实现本地文件与服务数据的互通。

实时、增量数据通道 针对实时数据上传的场景,MaxCompute 提供了延迟低、使用方便的 DataHub 服务,特别适用于增量数据的导入。DataHub 还支持多种数据传输插件,例如:Logstash、Flume、Fluentd、Sqoop 等,同时支持日志服务 Log Service 中的 日志数据一键投递至 MaxCompute,进而使用 DataWorks 进行日志分析和挖掘。

与其它阿里云服务的集成使用

MaxCompute(原 ODPS)是一种大数据计算服务,能提供快速、完全托管的 PB 级数据仓库解决方案,已经与阿里云部分产品集成,可以快速实现很多业务场景。

MaxCompute 与大数据开发套件

大数据开发套件 是基于 MaxCompute 计算和存储,提供工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。在数加中,大数据开发套件控制台即为 MaxCompute 控制台。

通过大数据开发套件,您既可直接编写并运行 MaxCompute SQL,又能可视化配置工作流并定时调度运行 MaxCompute SQL、MR 等任务。更多使用说明请参考 大数据开发套件帮助文档。

您可以将大数据开发套件理解成 MaxCompute 的 web 客户端。 MaxCompute 与数据集成

MaxCompute 可以通过数据集成加载不同数据源数据,同样也可以通过数据集成把 MaxCompute 的数据导出到各种业务数据库。

数据集成已经集成到大数据开发套件作为 数据同步 任务进行配置、运行。您可直接在大数据开发套件上 配置 MaxCompute 数据源,再配置 读取 MaxCompute 表或者 写入 MaxCompute 表任务,整个过程只需在一个平台上进行操作。

MaxCompute 与机器学习

机器学习 是基于 MaxCompute 的一款机器学习算法平台。数加上创建好 MaxCompute 项目,开通好机器学习,即可通过机器学习平台的算法组件对 MaxCompute 数据进行模型训练等操作。详情请参见 机器学习操作文档。

MaxCompute 与 QuickBI

数据在 MaxCompute 进行加工处理后,将 Project 添加为 QuickBI 数据源,即可在 QuickBI 页面对 MaxCompute 表数据进行报表制作,实现数据可视化分析。

MaxCompute 与 AnalyticDB

AnalyticDB 是海量数据实时高并发在线分析(Realtime OLAP)的云计算服务,与 MaxCompute 双剑合璧实现大数据驱动业务系统的场景。通过 MaxCompute 离线计算挖掘,产出高质量数据后,导入分析型数据库,供业务系统调用分析。

将 MaxCompute 数据导入到 AnalyticDB,有以下两种方式:

通过 DMS for AnalyticDB 的 导入导出 功能进行配置。 通过大数据开发套件配置数据同步任务,读 MaxCompute 和 写 AnalyticDB。 MaxCompute 与推荐引擎

推荐引擎 是在阿里云计算环境下建立的一套推荐服务框架,推荐服务通常由三部分组成:日志采集,推荐计算和产品对接,而推荐计算的离线计算输入和输出都是 MaxCompute(原 ODPS)表。

在推荐引擎控制台的资源管理页面,通过 添加云计算资源 的方式,将 MaxCompute 项目添加为推荐引擎的计算资源。

MaxCompute 与表格存储

表格存储(Table Store) 是构建在阿里云飞天分布式系统之上的分布式 NoSQL 数据存储服务,MaxCompute2.0 支持直接通过外部表方式访问表格存储中的表数据并进行处理,详情请参见 访问 OTS 非结构化数据。

MaxCompute 与 OSS

对象存储 OSS 是海量、安全、低成本、高可靠的云存储服务,MaxCompute2.0 支持直接通过外部表方式访问表格存储中的表数据并进行处理,详情请参见 访问 OSS 非结构化数据。

MaxCompute 与 OpenSearch

阿里云 开放搜索 OpenSearch 是一款阿里巴巴自主研发的大规模分布式搜索引擎平台。数据通过 MaxCompoute 进行计算处理后,可以在 OpenSearch 平台上通过 添加数据源 的方式将 MaxCompute 数据接入。

MaxCompute 与移动数据分析

移动数据分析(Mobile Analytics) 是阿里云推出的一款移动 App 数据统计分析产品,为开发者提供一站式数据化运营服务。当移动数据分析自带的基础的分析报表不能满足 APP 开发者的个性化需求时,可以将数据 一键同步至 Maxcompute,结合自己的业务需求来进一步加工、分析自己的数据。

MaxCompute 与日志服务

日志服务 能快速完成数据采集、消费、投递以及查询分析等功能。日志数据采集后,需要更多的个性化分析、挖掘,您可以在日志服务上 投递日志到 MaxCompute,通过 MaxCompute 对日志数据进行个性化、深层次的数据分析、挖掘。

MaxCompute 与RAM

RAM是阿里云为客户提供的 用户身份管理 与 资源访问控制 服务。MaxCompute与RAM的集成使用主要有两个场景:

场景一:通过数加·大数据开发套件使用MaxCompute时,子账户的身份管理

主帐号开通并创建项目后,若需要通过数加·大数据开发套件使用MaxCompute且多个账户协同开发,必须由主帐号到RAM服务中创建子账户,将RAM子账户添加为项目成员从而进行协同开发,具体的操作可以参考大数据开发套件文档准备RAM子账号、添加项目成员和角色。

注意:此时RAM只起到用户身份管理功能,相关的权限管理不在RAM上控制。MaxCompute命令对RAM子账户的相关授权可以参考文档添加 RAM 子账号。

场景二:MaxCompute处理非结构化数据时,通过RAM对非结构化数据进行授权

目前MaxCompute支持直接处理非结构化数据(包含OSS和Table Store),前提条件之一就是需要在 RAM 中授予 MaxCompute 访问 OSS或Table Store 的权限,具体可以参考文档访问 OSS 非结构化数据、访问Table Store非结构化数据。

关于MaxCompute的拓展了解:

Apsara Clouder大数据专项技能认证:使用MaxCompute搭建社交好友推荐系统

(本课程是阿里云大学Apsara Clouder大数据专项技能认证:使用MaxCompute搭建社交好友推荐系统相关课程,仅能试听免费课时,需购买认证包才能学完全部课时,考取证书。)

Apsara Clouder大数据专项技能认证:利用MaxCompute部署股票交易策略

(本课程是阿里云大学Apsara Clouder大数据专项技能认证:利用MaxCompute部署股票交易策略相关课程,仅能试听免费课时,需购买认证包才能学完全部课时,考取证书。)

认证流程

1购买认证

2学习课程/在线实验

3在线考试

4领取电子证书

阿里云大学官网(阿里云大学 - 官方网站,云生态下的创新人才工场)