MemoryS 2025 存储峰会完美闭幕

2025年3月12日 深圳宝安前海·JW万豪酒店

AI数据中心需要怎样的存储?——Solidigm详解挑战与应对

峰会新闻 2025-03-18 16:31 Solidigm

AI引发的数字浪潮正在驱动全球存储产业格局的重构与未来存储技术的演进。近两年全球AI基础设施建设如火如荼,数据中心“万卡集群”成常态化部署,作为AI基础设施的核心要素,存力建设已成为支撑大模型训练与推理效能的关键性资源。在此背景下,传统HDD存储方案的局限性凸显,兼具高性能、高密度优势的SSD技术,特别是QLC技术,正加速向AI存储主战场渗透。

在3月12日的MemoryS2025存储峰会中,Solidigm亚太区销售副总裁倪锦峰发表题为《加速存储创新,拥抱AI时代》的演讲,深度解析Solidigm带来的高效AI存储解决方案,如何打破存算力不匹配瓶颈,释放人工智能潜力。

AI正在重塑千行百业,作为AI重要基石的存储也正在经历着根本性的变革。正如倪锦峰先生介绍到的,“要了解存储在AI中的价值,首先需要了解AI每一步所对应的workload特性以及数据量。”

在AI集群的典型部署中,涉及到数据摄取、数据准备、模型训练、Checkpoint检查点、推理以及存档各环节。在摄取和准备阶段,数据在对象存储层和计算层间流动,涉及到大规模数据的顺序读写。在训练阶段,GPU的高效运行依赖于存储系统的性能,如果存储系统的读写速度不足或延迟过高,将令GPU因等待数据无法执行计算任务而处于闲置(Idle)状态,导致计算资源浪费。此外,在AI大模型的训练和部署中也会间歇性大量写入Checkpoint,这需要高性能顺序写入,而传统的HDD则很难胜任。在推理阶段,需要在计算层中执行对已部署的训练模型发起随机数据读取请求,可通过RAG(检索增强生成)技术增强模型表现(如从外部数据库检索信息辅助生成结果),这其中更低延迟的存储系统对于确保高效的数据检索将至关重要。最后在存档阶段,需要将模型运行时的数据数据(如推理请求)和输出数据(如预测结果)通过随机写入方式保存至对象存储层。

正是因为在这些环节中所涉及到数据存储需要满足更严苛的要求,以HDD为主的传统存储方案局限性凸显,令全球众多的数据中心,尤其是AI数据中心都或多或少面临着存储密度低以及GPU使用率低这两大核心挑战。倪锦峰先生介绍,“缺乏足够的存储空间来存放AI所需的海量数据集被企业列为头号挑战。而在其他条件相同的情况下,更高密度的SSD意味着更少的数量,亦即更低的功耗。”

此外,在变革中,电力(Power)与空间(Space)却又成为了不可忽视的两大影响因素。据倪锦峰先生介绍,当前AI的推动下,100MW的数据中心较为常见,未来1000MW数据中心也将会大量涌现。缺电缺空间的现象预计将在全球范围内逐渐蔓延。那么,如何节省能源、提升效率将成为致力于持续优化TCO的数据中心服务商的重要考量因子。

“采用以大容量QLC为基础的高密度存储方案,不仅可以在实现同样的算力和存力的情况下大大降低功耗并减少空间和节省电力,同时还可以在同样的50MW能耗预算下进一步提升算力和存力。”倪锦峰先生介绍到。从2024年Q1开始,已有大型算力提供商和终端客户大规模使用大容量QLC SSD来替代原有的TLC Cache+HDD存储这样的混合方案,以大幅度节省机架空间、节约大量电力成本,并更好地支持GPU部署的拓展。目前,领先的互联网和创新存储方案提供商也已经在积极地研究大容量SSD来替换HDD,以解决即将发生的电力和空间限制。

继承自英特尔的传统并结合SK海力士的全球业务规模,Solidigm同时拥有浮栅 (Floating Gate)和电荷捕获(charge trap)技术,提供广泛的SSD产品系列,并更好地满足AI存储产品的特定需求。值得一提的是,自2018年以来,Solidigm已累计出货超过100EB的QLC产品。倪锦峰先生介绍,“在数据摄取与存档阶段,需要高密度、好的读性能以及较好的写性能,Solidigm D5-P5336 QLC SSD可高效应对海量数据存储挑战;进入数据准备、模型训练、推理等阶段时,对容量密度要求不高,但对读写性能有较高要求,那么D7-PS1010/PS1030 PCIe 5.0 SSD、D7-P5520与D5-P5430能够为对读写性能要求严苛的场景提供可靠支撑。”

AI是具有重大意义的技术革命,以DeepSeek为代表的AI创新力量大大加速了AI推理的落地,给整个行业注入了一支强心剂。AI的发展对基础设施性能和效率的要求越发突出,存储的角色也正变得愈发重要。倪锦峰先生表示,Solidigm将持续发力,为当下AI时代提供最为广泛的端到端的存储解决方案,夯实存力基础,更好地释放数据价值,助力AI发展。