阿里云国际站CPFS:在复杂计算任务中,阿里云CPFS的稳定性如何保障?

102 阅读5分钟

TG:@yunlaoda360

分布式高可用架构

  • 多副本冗余:CPFS采用多副本机制,如2副本、3副本,或纠删码模式(如4+2p、8+3p等),将数据的多个副本存储在不同的节点或磁盘上。即使某个节点或磁盘出现故障,数据依然可以从其他副本中获取,确保数据的高可用性和可靠性,避免因单点故障导致数据丢失或无法访问。
  • 基于Paxos Ring的仲裁调度:CPFS基于Paxos Ring的仲裁调度机制,能自动检测服务节点的异常,并在分钟级别内将服务切换到其他正常节点,继续提供服务,整个过程用户无感知,极大地提高了系统的可用性和稳定性,避免了传统两节点HA模式下手动恢复的影响。

强大的存储性能

  • 高吞吐量与IOPS:CPFS将数据条带化后均匀分布在整个存储集群上,允许客户端并行访问,吞吐和IOPS随存储节点的数量实现线性增长,整个存储集群可提供超高的聚合带宽和IOPS。在复杂计算任务中,能够快速响应大量的数据读写请求,避免因存储性能瓶颈导致任务延迟或失败。
  • 低延迟:采用自研的高性能RoCE RDMA网络协议和虚拟存储通道技术,配合100G/200G InfiniBand网络接入,大大降低了网络延迟,提高了数据传输的速度和效率,为复杂计算任务提供了稳定的低延迟存储服务。

数据保护与恢复机制

  • 自动备份与快速恢复:CPFS具备自动创建本地数据多版本快照并上传至云端作为备份的功能,还支持本地与云端文件数据同步,实现异地容灾存储。当出现数据损坏或丢失等意外情况时,可快速从备份中恢复数据,保障计算任务的连续性。
  • 断点续传:对于大文件传输或在网络不稳定的情况下,支持断点续传功能,确保数据的完整性和可靠性,避免因传输中断导致的数据丢失或重新传输的时间浪费。

jimeng-2025-07-31-7489-创建一个具有未来科技感的云服务器服务宣传图。主视觉是发光的白云和阿里云相间的服务....jpeg

与高性能网络的协同

  • 双平面高可用网络架构:阿里云自研的高性能网络,业界首创双平面的高可用网络架构,即使在网络Link和设备中断的情况下,训练任务也不会中断,保障了复杂计算任务中存储与计算节点之间的稳定通信。
  • HPN7.0高性能网络架构:CPFS结合阿里云的HPN7.0高性能网络架构,可实现单集群10万张GPU卡互联,同时提供3.2T跨机带宽,为大规模复杂计算任务提供了强大的网络支持,确保数据传输的高效性和稳定性。

自动化管理与智能调度

  • 滚动式升级:支持滚动式升级,升级过程中服务不间断,确保了系统在进行软件更新或维护时,仍能持续稳定地为复杂计算任务提供存储服务。
  • 智能调度与负载均衡:CPFS的智能调度器能够根据存储节点的状态和负载情况,自动分配和调整数据的分布与访问请求,实现负载均衡,避免某些节点过载而成为性能瓶颈,提高了整个存储系统的稳定性和可靠性。

高效的数据流动管理

  • 数据分层存储与流动:支持数据流动技术,可实现CPFS与OSS等不同存储服务之间的高效数据流动。用户可根据数据的冷热程度,将冷数据按需加载至CPFS,或从CPFS归档到OSS,既降低了存储成本,又避免了冷数据频繁访问对高性能存储资源的占用,提高了存储资源的利用率和整体性能,保障复杂计算任务的稳定运行。
  • 缓存加速:CPFS智算版采用多级缓存弹性客户端,如计算节点缓存、分布式缓存等,能够缓存热点数据,减少对后端存储的频繁访问,提高数据读写速度,降低延迟,从而增强复杂计算任务的执行效率和稳定性。

可靠的监控与告警

  • 实时监控:阿里云提供完善的监控服务,用户可在NAS控制台的性能监控页面或目标CPFS文件系统基本信息的性能监控页签中,实时查看CPFS文件系统的运行情况,包括IOPS、吞吐、延迟和元数据QPS等指标,及时了解存储系统的性能状态。
  • 智能告警:通过设置合理的告警阈值,当监控指标出现异常时,系统会及时发出告警通知,使运维人员能够快速响应并处理潜在问题,保障复杂计算任务的稳定进行。

良好的兼容性与集成能力

  • 标准协议支持:CPFS支持POSIX和MPI-IO等标准协议,客户的业务应用无需任何修改即可无缝上云,与现有的高性能计算环境进行集成,降低了因兼容性问题导致的系统不稳定风险。
  • 多场景适配:适用于多种复杂计算场景,如基因计算、石油勘探、气象分析、机器学习、大数据分析和媒体文件处理等,经过了阿里双十一超高压力等大规模实际应用场景的考验,证明了其在复杂计算任务中的稳定性和可靠性。