阿里云弹性高性能计算E-HPC强势来袭,全新打造一站式云超算

287 阅读8分钟
原文链接: click.aliyun.com

HPC ( High Performance Computing ,高性能计算)通常指将计算能力积聚,用并行计算方式解决更大规模的科学、工程和商业问题。如今,高性能计算已在不知不觉中渗透到人类生活的方方面面。从材料科学到石油勘探、金融市场、应急管理、医学和互联网等领域,高性能计算无一不大显身手,帮助快速攻克各种疑难问题。

5f3404004108ed8128a0634ad70e619a1c030bbe 

针对日益增长的 HPC 计算能力需求,阿里云在现有基础设施之上推出了弹性高性能计算 E-HPC 产品,为用户提供一站式的高性能计算服务的云平台,即 HPCaaS 公有云服务。 2017 年 10 月 12 日,产品正式发布公测上线,截止到目前,已有三百多家来自国内外的高性能计算用户在使用 E-HPC 公测资源,测试的应用主要集中在科学计算, AI /机器学习,设计/仿真/渲染等领域。

项目背景

由于高性能计算集群昂贵,缓慢的初期建设投资,包括集群的维护、升级,管理和一次性购买昂贵的软件许可证的困难,如何“不用排队,申请任意规模,有丰富可共享的计算软件环境”成为高性能用户普遍的诉求。另一方面,高性能计算用户对计算性能,扩展性和并行效率的追求,使得他们无法快速拥抱云计算虚拟化的计算资源。

随着云计算技术的逐渐成熟,高性能计算用户对HPCaaS 的需求变得越来越实际和迫切, HPCaaS 包括使用集群服务器和存储作为资源池的功能,用户提交其作业请求的 Web 界面,以及可以在给定集群上并行调度大规模并行应用的能力,调度多个不同并行应用程序的智能调度机制,同时考虑到不同的应用程序性能特征以达到最大总体生产力。

为此,阿里云开发了自身IaaS 云产品之上的高性能计算 PaaS 平台,基于阿里云弹性计算 ECS 实例、异构计算 EGS 实例、超级计算 集群SCC 、 虚拟专用网VPC 、高可靠高可用的 NAS 存储等组件,构建了一整套 HPC 用户熟悉的并行计算软件环境,用户在阿里云公共云上申请集群资源,快速构建和安装部署 HPC 需要的并行调度管理软件、通讯库、性能库和一系列常用高性能计算应用,用户通过熟悉的阿里云服务界面,不但得到了一个“独享式”的云端超算中心资源,还同时继承了阿里云产品的稳定,安全的品质和与其它阿里云产品打通的能力——这意味着用户可以将 HPC 和阿里云大数据分析、数据可视化和 AI 产品结合使用,激发出更多的创新。

技术解析

阿里云弹性高性能计算E-HPC 与传统超算中心以及自建集群相比,提供了一种快捷、弹性、安全以及互通的公共云高性能计算服务。

  • 快捷:快速创建基于阿里云ECS/EGS/SCC/VPC/NAS 等资源的计算集群,根据用户选择快速构建运行时环境和丰富的支撑软件栈;
  • 弹性:根据计算负荷,时间和性能要求增减和释放计算节点,存储等资源,节约大量的CAPEX 费用,包括但不限于硬件系统费用,永久软件许可证费用,机房维护费用,运维人工费用等。由于使用的是阿里云弹性计算资源,可以是实现即买即用的任意规模组合和节点自动缩容扩容的功能;
  • 安全:E-HPC 是构建在阿里云 IaaS 产品之上的 PaaS 平台,所以集成了阿里云产品的组合安全性,如 VPC 保证的网络安全, ECS 保证的计算安全和 NAS 保证的高可用高可靠存储等;
  • 互通:由于构建在阿里云IaaS 资源之上, E-HPC 和其它云产品可全面打通,例如通过云盘,共享存储和 VPC 网络安全交换数据,并可以和其它数据分析,可视化产品互通完成复杂的数值仿真和数据分析闭环。

e8aeece75d6b08a52917769580efc4e1532419a6

此外在技术层面,阿里云弹性高性能计算E-HPC 与传统超算中心、自建物理 HPC 集群、自建云服务器集群等相比较,可以分析得出其具有独特的竞争优势。

  • E-HPC 相比传统超算中心: E-HPC 按需要使用的规模购买,无需排期,即买即用; E-HPC 机型种类多,可根据应用需求购置最适合的计算资源配比(如 EGS 实例); E-HPC 充分复用阿里云产品,大大提高了数据安全性和高可用性。
  • E-HPC 相比自建物理 HPC 集群: E-HPC 可节约巨量 CAPEX 投入,包括但不限于硬件系统费用 / 软件许可证费用(多核,多节点)、服务器机房建设 / 电力和制冷费用、平日运作的维护支持费用;使用 E-HPC 无需顾虑硬件升级换代; E-HPC 打通阿里云全系列产品,可扩展性极强。
  • E-HPC 相比自建云服务器集群: E-HPC 提供方便的软件管理服务,覆盖 HPC 应用全部支撑软件栈功能,并随 HPC 共同体( OEM/OSV/ISV/ 用户 / 开发者 / 开源社区)版本升级; E-HPC 提供云端Elastic License 的按需付费的软件许可证调度机制,为用户节约一次性购买成本,同时为ISV 软件厂商和个人软件开发者提供了阿里云市场的新途径, E-HPC 还能够提供集群节点根据负荷变化的自动伸缩服务。

c34ea48b2113eddea33f27fc6890065e21a57e26

阿里云弹性高性能计算E-HPC 架构图

场景应用

E-HPC 是一个组合型产品,其计算节点有普通 ECS 实例、 GPU 加速 EGS 实例、超级计算集群 SCC 实例可供选择。 ECS 实例地域覆盖面广,适合在全球各地域部署; EGS 实例适合深度学习等支持并行加速应用的客户使用; SCC 实例提供 RDMA 网络互联,适合大规模集群,提高加速比。时下,有越来越多的中小企业和大企业需要普惠高性能计算来提供 HPCaaS 服务:

  • 在季节性工作负载或对额外资源的弹性需求时;
  • 在将IT 业务云化,无需投资额外的基础架构或增加等待工作队列的时间时;
  • 在希望通过 统一平台获取 行业应用软件许可证资源时;
  • 在需要支持多用户隔离运行多个应用程序且快速获得资源时。

阿里云的弹性高性能计算产品E-HPC 构筑了 HPCaaS 的青藏高原。

市场解读

阿里云E-HPC 是建构于飞天系统上的原生云超级计算平台,对底层计算,网络和存储的调用完全基于阿里云的飞天系统,采用 OpenAPI 接口,随其它云产品功能和性能一起升级进化。

更为突出的是,E-HPC 系统可以和阿里云神龙云服务器 /SCC 产品无缝对接,基于自研硬件的虚拟化 2.0 技术,同时具备物理机的性能和稳定性,并提供和 ECS , EGS 虚拟化异构资源的灵活对接,具备完全云特性,这一点是目前 国内外云厂商 都没有的优势,是真正的“云超算”。。

产品正在集成基于阿里云存储的Lustre 高性能并行文件系统, 接入更多主流高性能计算商业软件弹性许可证管理,增强 PaaS 的云监控,性能优化和丰富的计费体系,正在对接各个细分领域的 SaaS 合作伙伴,真正打造普惠和专业的云上超算平台。

弹性高性能计算E-HPC 基于多年积累的阿里云飞天系统,其功能,性能和体感将随各飞天产品的升级而普惠超算用户,基于阿里云飞天架构开发的 HPC 软件栈具有和云组间紧耦合,针对云平台优化的特性,和在物理超算平台上增加“云体验”的所谓“超算云”相比,真正释放了云计算的威力,可以说是毫无疑问地国内第一“云超算”产品。

点击此处 查看产品使用手册。更多产品详情,敬请关注:www.aliyun.com/product/ehp…www.alibabacloud.com/product/ehp…