HPC ( High Performance Computing ,高性能计算)通常指将计算能力积聚,用并行计算方式解决更大规模的科学、工程和商业问题。如今,高性能计算已在不知不觉中渗透到人类生活的方方面面。从材料科学到石油勘探、金融市场、应急管理、医学和互联网等领域,高性能计算无一不大显身手,帮助快速攻克各种疑难问题。
针对日益增长的 HPC 计算能力需求,阿里云在现有基础设施之上推出了弹性高性能计算 E-HPC 产品,为用户提供一站式的高性能计算服务的云平台,即 HPCaaS 公有云服务。 2017 年 10 月 12 日,产品正式发布公测上线,截止到目前,已有三百多家来自国内外的高性能计算用户在使用 E-HPC 公测资源,测试的应用主要集中在科学计算, AI /机器学习,设计/仿真/渲染等领域。
项目背景
由于高性能计算集群昂贵,缓慢的初期建设投资,包括集群的维护、升级,管理和一次性购买昂贵的软件许可证的困难,如何“不用排队,申请任意规模,有丰富可共享的计算软件环境”成为高性能用户普遍的诉求。另一方面,高性能计算用户对计算性能,扩展性和并行效率的追求,使得他们无法快速拥抱云计算虚拟化的计算资源。
随着云计算技术的逐渐成熟,高性能计算用户对HPCaaS 的需求变得越来越实际和迫切, HPCaaS 包括使用集群服务器和存储作为资源池的功能,用户提交其作业请求的 Web 界面,以及可以在给定集群上并行调度大规模并行应用的能力,调度多个不同并行应用程序的智能调度机制,同时考虑到不同的应用程序性能特征以达到最大总体生产力。
为此,阿里云开发了自身IaaS 云产品之上的高性能计算 PaaS 平台,基于阿里云弹性计算 ECS 实例、异构计算 EGS 实例、超级计算 集群SCC 、 虚拟专用网VPC 、高可靠高可用的 NAS 存储等组件,构建了一整套 HPC 用户熟悉的并行计算软件环境,用户在阿里云公共云上申请集群资源,快速构建和安装部署 HPC 需要的并行调度管理软件、通讯库、性能库和一系列常用高性能计算应用,用户通过熟悉的阿里云服务界面,不但得到了一个“独享式”的云端超算中心资源,还同时继承了阿里云产品的稳定,安全的品质和与其它阿里云产品打通的能力——这意味着用户可以将 HPC 和阿里云大数据分析、数据可视化和 AI 产品结合使用,激发出更多的创新。
技术解析
阿里云弹性高性能计算E-HPC 与传统超算中心以及自建集群相比,提供了一种快捷、弹性、安全以及互通的公共云高性能计算服务。
-
快捷:快速创建基于阿里云ECS/EGS/SCC/VPC/NAS
等资源的计算集群,根据用户选择快速构建运行时环境和丰富的支撑软件栈;
-
弹性:根据计算负荷,时间和性能要求增减和释放计算节点,存储等资源,节约大量的CAPEX
费用,包括但不限于硬件系统费用,永久软件许可证费用,机房维护费用,运维人工费用等。由于使用的是阿里云弹性计算资源,可以是实现即买即用的任意规模组合和节点自动缩容扩容的功能;
-
安全:E-HPC
是构建在阿里云
IaaS
产品之上的
PaaS
平台,所以集成了阿里云产品的组合安全性,如
VPC
保证的网络安全,
ECS
保证的计算安全和
NAS
保证的高可用高可靠存储等;
-
互通:由于构建在阿里云IaaS
资源之上,
E-HPC
和其它云产品可全面打通,例如通过云盘,共享存储和
VPC
网络安全交换数据,并可以和其它数据分析,可视化产品互通完成复杂的数值仿真和数据分析闭环。

此外在技术层面,阿里云弹性高性能计算E-HPC 与传统超算中心、自建物理 HPC 集群、自建云服务器集群等相比较,可以分析得出其具有独特的竞争优势。
- E-HPC
相比传统超算中心:
E-HPC
按需要使用的规模购买,无需排期,即买即用;
E-HPC
机型种类多,可根据应用需求购置最适合的计算资源配比(如
EGS
实例);
E-HPC
充分复用阿里云产品,大大提高了数据安全性和高可用性。
- E-HPC
相比自建物理
HPC
集群:
E-HPC
可节约巨量
CAPEX
投入,包括但不限于硬件系统费用
/
软件许可证费用(多核,多节点)、服务器机房建设
/
电力和制冷费用、平日运作的维护支持费用;使用
E-HPC
无需顾虑硬件升级换代;
E-HPC
打通阿里云全系列产品,可扩展性极强。
- E-HPC
相比自建云服务器集群:
E-HPC
提供方便的软件管理服务,覆盖
HPC
应用全部支撑软件栈功能,并随
HPC
共同体(
OEM/OSV/ISV/
用户
/
开发者
/
开源社区)版本升级;
E-HPC
提供云端Elastic License
的按需付费的软件许可证调度机制,为用户节约一次性购买成本,同时为ISV
软件厂商和个人软件开发者提供了阿里云市场的新途径,
E-HPC
还能够提供集群节点根据负荷变化的自动伸缩服务。

阿里云弹性高性能计算E-HPC 架构图
场景应用
E-HPC 是一个组合型产品,其计算节点有普通 ECS 实例、 GPU 加速 EGS 实例、超级计算集群 SCC 实例可供选择。 ECS 实例地域覆盖面广,适合在全球各地域部署; EGS 实例适合深度学习等支持并行加速应用的客户使用; SCC 实例提供 RDMA 网络互联,适合大规模集群,提高加速比。时下,有越来越多的中小企业和大企业需要普惠高性能计算来提供 HPCaaS 服务:
- 在季节性工作负载或对额外资源的弹性需求时;
-
在将IT
业务云化,无需投资额外的基础架构或增加等待工作队列的时间时;
-
在希望通过
统一平台获取
行业应用软件许可证资源时;
- 在需要支持多用户隔离运行多个应用程序且快速获得资源时。
阿里云的弹性高性能计算产品E-HPC 构筑了 HPCaaS 的青藏高原。
市场解读
阿里云E-HPC 是建构于飞天系统上的原生云超级计算平台,对底层计算,网络和存储的调用完全基于阿里云的飞天系统,采用 OpenAPI 接口,随其它云产品功能和性能一起升级进化。
更为突出的是,E-HPC 系统可以和阿里云神龙云服务器 /SCC 产品无缝对接,基于自研硬件的虚拟化 2.0 技术,同时具备物理机的性能和稳定性,并提供和 ECS , EGS 虚拟化异构资源的灵活对接,具备完全云特性,这一点是目前 国内外云厂商 都没有的优势,是真正的“云超算”。。
产品正在集成基于阿里云存储的Lustre 高性能并行文件系统, 接入更多主流高性能计算商业软件弹性许可证管理,增强 PaaS 的云监控,性能优化和丰富的计费体系,正在对接各个细分领域的 SaaS 合作伙伴,真正打造普惠和专业的云上超算平台。
弹性高性能计算E-HPC 基于多年积累的阿里云飞天系统,其功能,性能和体感将随各飞天产品的升级而普惠超算用户,基于阿里云飞天架构开发的 HPC 软件栈具有和云组间紧耦合,针对云平台优化的特性,和在物理超算平台上增加“云体验”的所谓“超算云”相比,真正释放了云计算的威力,可以说是毫无疑问地国内第一“云超算”产品。
点击此处 查看产品使用手册。更多产品详情,敬请关注:www.aliyun.com/product/ehp…、www.alibabacloud.com/product/ehp…。