想提高AI训练推理系统的整体效率,与其花费大价钱购买永远缺货的顶级GPU,倒不如花更少的钱把存储系统里的HDD换成SSD。对于HDD使用占比超90%的各类国内用户而言,这确实是个更划算的选择。而对于容量足够大、性能与TLC相当的QLC SSD来说,这更是拓展市场空间,证明技术价值的绝佳机会。
0 1、 AI为SSD市场带来新机遇
在真正开始大模型训练之前,数据需要经过收集、清理、过滤、标注、分割、格式转换等一系列流程。以2022年发布的ChatGPT 3为例,虽然其训练语料数据约为570GB,但这些训练数据却是从45TB数据中层层清洗筛选得来的;如今已完成多模态紧耦合的GPT-4o需要多少原始数据和清洗筛选后的数据来进行训练?这显然已是天文数字。而对于处在激烈军备竞赛中的整个AIGC产业而言,庞大数据所带来的存储挑战更是巨大。
与此同时,面对性能、机架空间、能耗、TCO等多方面的挑战,使用SSD来替代传统HDD存储也是AIGC企业的合理选择。而这也是2024年以来,SSD市场量价齐升现象的底层逻辑之一。那么,作为SSD市场新宠,拥有更高性价比和容量上限的QLC SSD是否也能满足AIGC产业的需求呢?
漫长的数据预处理流程意味着读写场景的大相径庭。例如,数据清洗、特征提取、标注等环节是典型的“读多写少”场景,读写比例通常在3:1至10:1之间;而数据导入和数据增强等环节则典型的“读少写多”场景,读写比例完全翻转,在1:3至1:10之间。
乍一看,擅读的QLC SSD似乎更适合在数据清洗、特征提取、标注等“读多写少”的环节中找到位置。而另一些“读少写多”场景则可能快速消耗QLC SSD的寿命,带来成本和运维压力。但对于QLC赛道的主要玩家Solidigm来说,这些情况都已在产品和方案的考虑范围之内。
0 2、 深耕QLC赛道的Solidigm 能否接下AI的泼天富贵?
由于能够在每个Cell中存储4bit数据,因此QLC闪存在容量和成本上相较于TLC有着先天优势。基于此,QLC硬盘厂商也能以更低的成本和更高的工程可靠性来生产大容量硬盘。Solidigm D5-P5536便是这一思路下的产物,其单盘最高61.44TB的容量已经是大容量HDD硬盘的2倍有余,足以解决用户的存储焦虑。此外,Solidigm也在旗下多个产品型号中增加了30TB容量的SKU。更何况采用PCI-E 4.0总线的各类QLC SSD还能提供10倍的读写性能和最高上千倍的IO性能提升。
而对于QLC在AI场景中的应用,Solidigm亚太区销售副总裁倪锦峰则表示:以10PB容量存储池为例,全HDD阵列需要1786块24TB硬盘,占据9个机架的空间;而如果采购QLC产品的话,用户只需15台服务器安装343块30TB硬盘即可实现相同的容量,占用1个机架的空间。从能耗角度来看,HDD系统5年能耗为10.2万美元,而QLC SSD系统的5年能耗则为2.3万美元;能耗成本仅为前者的22% 。因此,无论从机架空间占用、5年能耗成本还是总TCO层面来看,QLC SSD产品相较于HDD都有更具优势。
显然,对于“读多写少”场景而言,单盘容量更高且读性能不逊于TLC的QLC产品完全能够胜任。而对于其他“读少写多”场景,QLC也有变通之法。
倪锦峰表示:对于写任务更重的场景而言,用户可以使用CSAL(Cloud Storage Acceleration Layer)软件来将元数据进行聚合,再以块的形式写入到QLC硬盘当中,以此来减少SSD的写放大效应并提升性能。同时,对于30TB或者60TB的大容量QLC SSD而言,频繁写入对寿命的影响也相对更小、更可控。而对于其他写入更频繁的场景来说,用户也可以采用P5810+P5336的组合来进行分层写入,利用P5810 SLC颗粒所带来的超强性能和写寿命来充当P5336的缓存,以此来实现性能、容量、成本和寿命的全面平衡。
在金山云的实际应用对比中,对象存储KS3服务在使用纯HDD时,进行一次完整数据准备需耗时535分钟。而更换为纯QLC SSD存储之后的KS3 Extreme服务,进行一次完整数据准备则仅需11分钟;性能提升达到48.6倍。
通过为市场提供不同性能和耐用性的SSD产品,Solidigm正为用户替代传统HDD带来新选择,并实现了业务体验的大幅提升。同时,Solidigm也在用U.2、E1.S、E1.L、E3.S等众多形态和更多的容量选择来提升旗下QLC产品的场景适应性,让用户能够灵活配置不同的存储方案。
显然,对于眼下的这波AI趋势,Solidigm的QLC SSD技术路径不仅能够成为用户的性价比之选,更可通过软硬结合、多产品组合的方式免除用户的QLC寿命担忧;在成本更优的前提下,实现存力与算力的相互匹配。
0 3、 SSD市场机会多多、 QLC更有进步空间
对于分秒必争、只争朝夕的AIGC业务而言,SSD存储池或缓存池已几乎成为行业标配。但得益于上一轮数字新基建所带来的巨大红利,国内用户当前还没有遇到其他地区用户普遍面临的机架空间和能源挑战;这也是目前ICT市场HDD保有量仍占9成的根本原因。而伴随AIGC、数字化转型、边缘应用等趋势的进一步落地和深化,SSD所提供的性能、空间、可靠性和能效优势将进一步凸显,并最终促成新一轮的HDD替代风潮。
而在这一趋势最终于国内市场成型之前,Solidigm仍有大量时间来积累技术、产品、方案和成功案例,从而在与TLC SSD的大规模竞争中积累更多优势。
由此来看,时间更多地站在了QLC一边;而Solidigm未来表现值得期待。