AWS上调EC2机器学习预留实例价格15%

3 阅读4分钟

某云计算机构近期将EC2 Capacity Blocks for ML的定价在所有可用区域统一上调约15%。这一价格调整影响了那些为大规模机器学习工作负载预留专用GPU容量的组织。此次调价统一适用于该云服务商最强大的ML实例,包括由某图形处理器厂商芯片驱动的P5en、P5e、P5和P4d实例,以及使用该云服务商自研Trainium芯片的Trn2和Trn1实例。

尽管该云服务商自2023年推出该服务以来就表示,Capacity Block的定价会随供需关系动态调整,但云经济学家科里·奎因在某职业社交平台发帖指出,此次更新与典型的动态定价有所不同:

"这是该云服务商在其官方定价页面上更新了公布的基础费率……从34.608美元/小时统一调整为39.799美元/小时,所有区域一致。这是一个政策性决策,而非供需关系导致。"

EC2 Capacity Blocks for ML允许组织在该云服务商的EC2 UltraClusters(一种专为需要成百上千GPU的分布式ML训练而优化的高性能计算基础设施)内预留GPU实例。与标准的预留实例或节省计划不同,Capacity Blocks能保证在特定时间段内(通常从一天到几周不等)访问特定的实例类型。

这一变化的意义远不止于成本的直接增加。某平台创始人史蒂夫·韦德在同一篇帖子里点明了其更深层的影响:

"先例已开,这才是关键。这扇门一旦打开,就再也关不上了。每个FinOps团队的风险清单上都得新添一项。"

某产品负责人内森·佩克将这一转变置于更宏大的经济力量背景下进行了解读:

"要警惕通货膨胀和美元贬值,其速度可能超过摩尔定律带来的效率提升。这才是真正可能颠覆现有云模式的临界点。如果云服务商的静态价格无法跟上通胀,从技术上讲,这就相当于价格在持续下降。一旦超大规模云服务商无法维持这种游戏,那么自己前期购买硬件就会突然变得更有吸引力。"

此次价格调整反映了云基础设施市场面临的真实供应链压力。某金融机构董事总经理兼技术高管戴维·李评论道:

"我们正经历又一次类似新冠时期的供应紧张,尤其是内存和交换机。所有东西的价格都在上涨。"

然而,制约因素可能与许多人预期的不同。一位高级DevSecOps工程师指出:

"这里的供应瓶颈实际上是电力。某机构的首席执行官曾表示,他们仓库里堆满了尚未安装的GPU,原因是没地方放它们。"

一位从业者在某技术社区r/aws板块的观察,则凸显了实际影响和有限的替代方案:

"Capacity Blocks实际上是你能使用这些实例类型的唯一途径。你几乎不可能按需启动一个这样的实例。所以,实际上,这成了他们用按需价格来宣传,而实际收取更高费用的一种方式。"

这种稀缺性意味着组织几乎没有选择来消化成本的增加。更重要的是,即使签订了企业折扣协议的客户也会受到此次调价的影响,因为这些折扣通常是基于百分比而非固定金额——无论协商的折扣率是多少,15%的公开价格上涨最终都会转化为15%的有效成本增加。

目前尚不清楚这是否是该云服务商的个别调整,还是反映了更广泛的行业趋势。一位某数据云公司的战略解决方案工程师指出,此次涨价似乎主要集中在配备某图形处理器厂商H200 GPU的P5e实例上,暗示可能是芯片厂商提高了对云服务商的供货价格。

目前尚不清楚其他主要云服务平台是否会对其GPU产品进行类似的调整,不过行业观察人士认为,潜在的成本压力影响着所有超大规模云服务商。

对于机器学习团队和FinOps从业者而言,此次涨价再次凸显了工作负载优化和成本管理纪律的重要性。正如一位首席云架构师所说:

"鉴于当前GPU和内存的价格,这一涨价并不令人意外。关键在于,你需要深入了解你所使用的服务及其定价模式。"

此次定价更新目前已在该云服务商提供EC2 Capacity Blocks for ML的所有区域生效。详细的定价信息可在其官方EC2 Capacity Blocks定价页面查询。FINISHED