产品分类

product class

联系我们

contact us

地址:
电话:
手机:
邮编:
邮箱:

英伟达——推理王国持续扩张

文章来源:admin 更新时间:2026-03-29

  通过极致协同设计,每年从芯片、机柜到人工智能工厂,持续释放颠覆性技术优势

  (注:文中涉及的英伟达产品代际与技术规格图表,已在翻译中转化为清晰的文字说明与表格,核心参数完整保留)

  在 2026 年 GPU 技术大会(GTC)上,英伟达发布了一系列突破性成果,创新步伐丝毫未减。本次大会推出三款全新系统:Groq LPX、Vera ETL256STX;同时公布 Kyber 机柜架构的重大更新,首次展示面向规模化扩展网络的共封装光学(CPO)技术,推出 Rubin Ultra NVL576 与 Feynman NVL1152 多机柜系统,并披露 Feynman 架构的早期细节。黄仁勋在主题演讲中重点提及的 InferenceX 技术,成为本次大会的一大亮点。

  本文将为你复盘 2026 年 GTC 大会核心内容,解答英伟达尚未明确的关键问题:深入解析LPX 机柜与 LP30 芯片,阐释注意力与前馈网络解耦(AFD)技术原理;详解 NVL144、NVL576、NVL1152 背后的机柜架构差异,说明光模块的部署规模及高密Vera ETL256的设计逻辑;揭秘下一代 Kyber 机柜的重大更新与隐藏细节。

  近期人工智能基础设施领域最重大的事件之一,便是英伟达对 Groq 的 “收购”—— 严格来说,英伟达以 200 亿美元的价格获得 Groq 的 IP 授权,并吸纳其核心团队。这一交易形式虽未构成法律意义上的完全收购,却实质达到收购效果,既简化了监管审批流程(若按完全收购提交反垄断审查,大概率无法通过),又避免了冗长的交割周期,让英伟达迅速获得 Groq 的技术与人才。这也是为何交易宣布后不到四个月,英伟达便推出整合 Groq 技术的系统概念,并将其融入 Vera Rubin 推理架构。

  Groq 的 LPU(推理处理单元)架构最早在 2020 年国际计算机体系结构研讨会(ISCA)上披露。与传统多通用核心互联架构不同,LPU 将硬件重新设计为多个专用功能单元组(称为 “切片”),单元组间通过流寄存器、暂存 SRAM 实现数据交互。Groq 采用单级暂存 SRAM 而非多级存储层级,确保硬件执行的确定性。

  切片按水平方向布局,数据沿水平方向流转;切片内部,指令沿垂直方向在单元间传输,整体类似 “垂直传指令、水平传数据” 的脉动阵列结构。这种数据流与指令流设计需通过细粒度流水线实现高性能,而确定性计算特性让编译器可通过激进的指令调度与重叠,隐藏延迟。高带宽 SRAM 与激进流水线设计,是 LPU 实现低延迟的两大核心。

  第一代 LPU:基于格芯 14nm 工艺打造,由美满电子负责物理设计。2020 年流片时,14nm 工艺已相当成熟(同期主流人工智能芯片多采用台积电 N7 工艺),适合作为验证 Groq 架构的初代产品,更侧重架构差异化而非制程领先性。其核心优势是可完全在美国完成制造与封装,而竞争对手高度依赖亚洲供应链(中国台湾的逻辑芯片与封装、韩国的 HBM)。

  第二代 LPU:原计划采用三星晶圆厂 SF4X 工艺,由三星奥斯汀工厂生产,延续 “美国本土制造” 的定位。三星为争夺先进制程客户,以优惠条款与投资吸引 Groq 合作,并参与了 Groq 2024 年 8 月的 D 轮融资及 2025 年 9 月英伟达 “收购” 前的最后一轮融资。但该产品因设计问题未能量产 —— 芯片上的 C2C 串并转换器(SerDes)无法达到宣传的 112G 速率,导致功能异常。

  第三代 LPU(LP30):英伟达将量产的首款 LPU 产品,跳过第二代直接迭代。产品本身无英伟达设计参与,但已修复第二代的 SerDes 问题。后续还将推出小幅升级的 LP35 版本,仍基于 SF4 工艺,需重新流片,将支持 NVFP4 数据格式,为抢占上市时间,暂不做其他大幅设计改动。

  第四代 LPU(LP40):将采用台积电 N3P 工艺与 CoWoS-R 封装,英伟达将深度参与设计,融入 NVLink 协议(替代 Groq 原生 C2C),并与 Feynman 平台深度协同。计划采用混合键合 DRAM 技术扩展片上内存, latency 与带宽略低于 SRAM,但远超传统 DRAM;SK 海力士将为其提供 3D 堆叠 DRAM。

  SRAM 的优势是低延迟、高带宽,但密度低、成本高。因此,以 Groq LPU 为代表的 SRAM 架构设备,首 token 生成速度与单用户每秒 token 生成量极快,但总吞吐量受限 —— 有限的 SRAM 容量易被权重占满,留给随用户批量增加而扩容的 KV 缓存空间有限。而 GPU 在吞吐量与成本上更具优势。

  这也是英伟达决定整合两种架构的核心原因:将延迟敏感、内存需求较低的解码环节,交由低延迟、高 SRAM 占比的 LPU 处理;将内存密集型的注意力计算,交由具备大容量高速内存(虽不及 SRAM 快)的 GPU 完成,实现优势互补。

  LP30 芯片采用接近掩模版尺寸的单片设计,无需先进封装,500MB 片上 SRAM 占用大量芯片面积,而矩阵乘法核心仅提供 1.2 PFLOPs 的 FP8 算力,远低于英伟达 GPU。相比第一代 LPU(230MB SRAM、750 TFLOPs INT8 算力),性能提升主要源于制程从格芯 14nm 迁移至三星 SF4 工艺。

  采用 SF4 工艺的核心优势:不受台积电 N3 工艺产能限制(当前 N3 工艺制约加速器量产,是行业算力紧张的关键原因),且无需依赖同样紧缺的 HBM,让英伟达可在不占用宝贵的台积电产能与 HBM 配额的前提下,扩大 LPU 产量,创造独特的增量收入与产能优势。

  英伟达引入 LPU 的核心目标是提升高交互场景的推理性能,核心技术路径之一便是注意力与前馈网络解耦(AFD)—— 该技术最早在 MegaScale-Infer 与 Step-3 中提出。

  预填充(Prefill):处理完整输入上下文,属于计算密集型任务,适合 GPU 执行。

  解码(Decode):逐一生成新 token,属于内存受限型任务,对延迟敏感。LPU 的高 SRAM 带宽与低延迟特性,可显著加速这一迭代过程。

  注意力(Attention)与前馈网络(FFN)是模型中的两类核心运算:

  注意力运算:输出需传入 token 路由器,路由器将每个 token 分配给 k 个专家(每个专家对应一个 FFN);解码阶段,注意力运算受 KV 缓存加载限制,批量扩大时 GPU 利用率提升有限。

  FFN 运算:计算仅依赖 token 输入,无状态;批量扩大时 GPU 利用率提升更明显。

  随着最先进的混合专家(MoE)模型稀疏度不断提高,token 可选择的专家池扩大,每个专家接收的 token 减少,导致利用率下降 —— 这正是 AFD 技术的核心应用场景。

  注意力运算→GPU:GPU 擅长处理动态工作负载,其 HBM 容量可完全分配给 KV 缓存,提升单次处理的 token 总量,进而提高每个专家的平均 token 处理量,改善利用率。

  AFD 技术中,GPU 与 LPU 间的令牌路由可能成为瓶颈(尤其在严格延迟约束下),路由流程包含 “分发(dispatch)” 与 “合并(combine)” 两步:

  分发:通过全对全(All-to-All)集合运算,将每个 token 路由至最优的 k 个专家。

  合并:专家运算完成后,通过反向全对全集合运算,将结果返回至源 GPU,继续下一层计算。

  为隐藏路由通信延迟,采用 “乒乓流水线并行” 技术:除将批量拆分为微批量并进行计算流水处理外,令牌在 GPU 与 LPU 间循环传输(类似 “乒乓”),最大化重叠计算与通信时间。

  LPU 加速解码的另一路径是推测解码:在 LPU 上部署草稿模型(draft model)或多令牌预测(MTP)层。

  核心原理:对于 N 个 token 的上下文解码,若新增 k 个 token(kN),延迟仅小幅增加。利用这一特性,草稿模型 / MTP 层先预测 k 个新 token(小模型解码延迟更低);主模型仅需对这 k 个 token 进行一次 “热身预填充” 验证,延迟相当于单次解码步骤。推测解码通常可将每步解码的输出 token 数提升 1.5-2 倍,而 LPU 的低延迟特性可进一步扩大延迟节省效果,提升吞吐量。

  与 AFD 技术不同,推测解码中的草稿模型 / MTP 层需动态加载 KV 缓存(有状态),且模型体积达数十 GB(远超单个 FFN 的数百 MB)。为此,LPX 计算托盘的结构扩展逻辑 FPGA,可为 LPU 提供高达 256GB 的 DDR5 内存支持。

  英伟达在 GTC 上展示的LPX 机柜包含 32 个 1U LPU 计算托盘与 2 个 Spectrum-X 交换机,这一配置与收购前 Groq 的原始服务器设计高度相似,但预计 2026 年第三季度量产时将有调整。以下是量产版本的核心细节:

  LPU 部署方式:采用 “背对背” 安装,PCB 上表面与下表面各 8 个 LP30 模块,所有 LPU 互联通过 PCB 走线实现。这种设计可缩短 X、Y 维度的 PCB 走线长度,满足节点内全对全互联的高密度布线需求。

  网卡功能:将 LPU 的 C2C 协议转换为以太网,连接 Spectrum-X 扩展网络,实现 LPU 与 GPU 的解码系统互联。

  控制与内存扩展:通过背板与节点内其他 FPGA 互联,管理 LPU 的控制流与时序;每颗 FPGA 可提供高达 256GB 的额外系统 DRAM,若用户需完全由 LPX 承担解码流程,该内存池可用于 KV 缓存。

  分为节点内、节点间 / 机柜内、机柜间三个层级,英伟达宣称单机柜扩展带宽达 640TB/s(计算逻辑:256 颗 LPU × 90 通道 × 112Gbps/8 × 2 方向 = 645TB/s,注:英伟达采用 112G 线G 有效数据率)。

  节点间 / 机柜内拓扑:每颗 LPU 与机柜内其他 15 个节点的对应 LPU 通过 2×100G 铜缆背板连接;每颗 FPGA 与其他节点的 FPGA 通过 25G/50G 链路连接(同样通过背板)。单个节点需 510 个通道(1020 个差分对)用于节点间互联。

  机柜间拓扑:每颗 LPU 通过 4×100G 通道连接至 OSFP 插槽,支持跨 4 个机柜互联。推荐采用菊花链配置,节点 0 与其他 2 个节点 0 连接,两端通过 9 米 AEC 线缆或光模块连接形成环形网络。

  (共封装光学)路线图,黄仁勋在次日的财务分析师问答会上进一步补充说明。与行业预期不同,英伟达并未将 CPO 用于 Rubin Ultra Kyber 机柜的内部扩展,而是聚焦于构建更大规模的计算系统。

  Kyber 机柜首次作为原型机在 2025 年 GTC 展示,此次披露的量产版本有显著调整:

  :供应链透露的概念方案,由两个 NVL144 Kyber 机柜通过机柜间铜背板互联。面临的挑战:当前 NVLink 7 交换机最大端口基数仅 144 个(200G 端口),若实现 288 颗 GPU 全对全互联,需更高基数交换机,或采用蜻蜓网络拓扑并接受一定程度的超订阅。

  Feynman 虽未披露过多细节,但从大会预览可知,其将集成三大核心技术创新:混合键合 / 系统级芯片互联(SoIC)、A16、CPO 与定制 HBM,是极具突破性的平台。核心悬念在于 CPO 的应用范围 —— 机柜内互联将沿用铜还是转向光,后续将在付费内容中披露可能的配置方案。七、

  前身为 ICMS(推理上下文内存存储),是英伟达推出的 “G3.5 层” 存储解决方案,位于 G3 层(本地 SSD)与 G4 层(共享存储)之间,专为解决长上下文与智能体式工作负载中 KV 缓存快速扩张的瓶颈。KV 缓存存储层级挑战

  :参考存储机柜架构STX 是基于英伟达 BlueField-4 的存储解决方案参考架构,用于补充 VR 计算机柜,明确规定了特定集群所需的硬盘、Vera CPU、BlueField-4 数据处理单元(DPU)、CX-9 网卡与 Spectrum-X 交换机数量。

返回列表

上一篇:军营观察丨一名士兵的成长“三部曲”

下一篇:金山毒霸软件管理专区

地址:电话:手机: