AI模型参数突破万亿、上下文窗口迈向百万级Token,KV缓存作为AI推理的“工作记忆”,体量随之呈指数级增长,传统存储体系的不足日益凸显。
一方面,GPU的HBM容量有限且成本高昂,无法承载海量KV缓存,强行占用会导致算力资源紧张。另一方面,传统存储层级从GPU HBM到系统内存到本地SSD到共享存储,延迟从纳秒级飙升至毫秒级,频繁的交互导致GPU利用率下降。
为此,英伟达在Vera Rubin平台中推出BlueField-4 STX机架,搭载CMX平台,专为长上下文推理设计,通过硬件专用加速、重构存储层级,打破“内存墙”和“能效瓶颈”,让存储从数据保管者转变为AI推理性能的核心驱动力。
BlueField-4 STX是Vera Rubin平台五大核心机架之一,作为独立AI存储机架与GPU计算、CPU 编排、网络互联、推理加速机架并列。
图1 Vera Rubin机架组成

图片来源:CFM制作
英伟达将BlueField-4 STX定义为一种模块化参考架构,为AI原生数据存储提供系统架构模板,助力企业、云和AI服务商部署“加速存储基础设施”,以满足代理式AI所需的长上下文推理能力。
STX架构基于Vera Rubin平台打造,以专为存储优化的BlueField-4处理器(DPU)为核心,并协同Spectrum-X以太网、DOCA及AI Enterprise软件运行,搭载全新的CMX上下文记忆存储平台,将存储协议处理与数据服务从CPU卸载,直接在I/O路径中协调数据访问、元数据处理和存储服务,释放通用算力,并降低存储访问延迟、提高效率。
现有存储层级并非为管理大量高频复用的推理上下文设计,短板凸显。大型推理集群的存储层级通常包括G1(GPU HBM)、G2(本地系统内存)、G3(本地存储)、G4(数据中心网络存储)。随着上下文的增长,KV Cache会迅速耗尽本地存储容量(G1-G3),同时将部分数据压入传统共享存储(G4),导致成本和功耗的增加并降低GPU利用率。
STX首个机架级部署方案集成了全新的NVIDIA CMX上下文内存存储平台。作为全新G3.5存储层级,CMX平台将KV Cache视为全新的AI原生数据类型,专门用于存放和检索LLM推理过程中生成的KV Cache数据,让上下文成为AI集群级系统间共享的高带宽资源。
图2 存储架构层级

图片来源:CFM制作
CMX平台的目标不是要取代GPU极速内存,而是在“快但小、成本高”和“大但慢、效率低”之间,建立一个容量、速度、成本均衡的中间层,让数据在各存储层级更高效地流动。相较于传统存储方案,CMX使长上下文与智能体推理的持续每秒Token处理量最高提升5倍、能效最高提升5倍。
CMX是一个以太网链接的闪存层(an Ethernet-attached flash tier),核心硬件构成包括BlueField-4 DPU和NVMe SSD。
·BlueField-4 DPU:赋能存储卸载,负责管理NVMe SSD,运行存储服务,并以高能效的方式为KV Cache卸载数据完整性和加密任务。
表1 BlueField-4 DPU规格配置

数据来源:NVIDIA
·NVMe SSD:CMX物理基础是闪存介质,主要为SSD。通过SSD集群为GPU提供加速的、共享的KV Cache存储池。据悉,CMX平台要求每个Rubin GPU配备16TB SSD,即一套NV72 Vera Rubin系统(含72个Rubin GPU)NAND容量达1152TB。
·存储分层体系重构,新增闪存层成为架构核心
STX架构重新定义了存储的角色。存储不仅存储首次与GPU、CPU并列作为独立机架出现,还从被动数据仓库升级为主动算力引擎。CMX平台的落地亦打破传统存储层级,新增专为KV Cache优化的上下文内存层,基于闪存介质支撑更大规模上下文的推理任务,推动存储从通用型向AI专用型转型。
·闪存角色跃迁,NAND成推理扩容关键
NAND Flash从被动存储介质升级为AI推理的“内存扩展池”。一方面,专为KV Cache设计的CMX平台推动NAND厂商优化产品架构,优化产品适配高带宽、低延迟、高IOPS的KV缓存场景。另一方面,单Vera Rubin机柜所需SSD容量达1152TB将带动企业级SSD需求爆发。
·上下文推理成本难题破局,AI存储需求迎放量
通过将KV Cache从昂贵HBM卸载至高性价比的CMX闪存层,BlueField-4 STX大幅降低了长上下文推理的运行成本,并实现能效提升高达4倍。这使得中小AI企业也能低成本部署长上下文推理服务,加速Agentic AI应用的普及和爆发式增长。海量部署将催生对存储系统的规模化、多元化需求,推动存储行业积极适配AI不同场景需求,推出新的专用产品线。