产品分类

product class

联系我们

地址：
电话：
手机：
邮编：
邮箱：

当前位置：快连LetsVP-无延迟网络加速器下载 > LetsVP

英伟达——推理王国持续扩张

文章来源：admin 更新时间：2026-03-29

　　通过极致协同设计，每年从芯片、机柜到人工智能工厂，持续释放颠覆性技术优势

　　（注：文中涉及的英伟达产品代际与技术规格图表，已在翻译中转化为清晰的文字说明与表格，核心参数完整保留）

　　在 2026 年 GPU 技术大会（GTC）上，英伟达发布了一系列突破性成果，创新步伐丝毫未减。本次大会推出三款全新系统：Groq LPX、Vera ETL256STX；同时公布 Kyber 机柜架构的重大更新，首次展示面向规模化扩展网络的共封装光学（CPO）技术，推出 Rubin Ultra NVL576 与 Feynman NVL1152 多机柜系统，并披露 Feynman 架构的早期细节。黄仁勋在主题演讲中重点提及的 InferenceX 技术，成为本次大会的一大亮点。

　　本文将为你复盘 2026 年 GTC 大会核心内容，解答英伟达尚未明确的关键问题：深入解析LPX 机柜与 LP30 芯片，阐释注意力与前馈网络解耦（AFD）技术原理；详解 NVL144、NVL576、NVL1152 背后的机柜架构差异，说明光模块的部署规模及高密Vera ETL256的设计逻辑；揭秘下一代 Kyber 机柜的重大更新与隐藏细节。

　　近期人工智能基础设施领域最重大的事件之一，便是英伟达对 Groq 的 “收购”—— 严格来说，英伟达以 200 亿美元的价格获得 Groq 的 IP 授权，并吸纳其核心团队。这一交易形式虽未构成法律意义上的完全收购，却实质达到收购效果，既简化了监管审批流程（若按完全收购提交反垄断审查，大概率无法通过），又避免了冗长的交割周期，让英伟达迅速获得 Groq 的技术与人才。这也是为何交易宣布后不到四个月，英伟达便推出整合 Groq 技术的系统概念，并将其融入 Vera Rubin 推理架构。

　　Groq 的 LPU（推理处理单元）架构最早在 2020 年国际计算机体系结构研讨会（ISCA）上披露。与传统多通用核心互联架构不同，LPU 将硬件重新设计为多个专用功能单元组（称为 “切片”），单元组间通过流寄存器、暂存 SRAM 实现数据交互。Groq 采用单级暂存 SRAM 而非多级存储层级，确保硬件执行的确定性。

　　切片按水平方向布局，数据沿水平方向流转；切片内部，指令沿垂直方向在单元间传输，整体类似 “垂直传指令、水平传数据” 的脉动阵列结构。这种数据流与指令流设计需通过细粒度流水线实现高性能，而确定性计算特性让编译器可通过激进的指令调度与重叠，隐藏延迟。高带宽 SRAM 与激进流水线设计，是 LPU 实现低延迟的两大核心。

　　第一代 LPU：基于格芯 14nm 工艺打造，由美满电子负责物理设计。2020 年流片时，14nm 工艺已相当成熟（同期主流人工智能芯片多采用台积电 N7 工艺），适合作为验证 Groq 架构的初代产品，更侧重架构差异化而非制程领先性。其核心优势是可完全在美国完成制造与封装，而竞争对手高度依赖亚洲供应链（中国台湾的逻辑芯片与封装、韩国的 HBM）。

　　第二代 LPU：原计划采用三星晶圆厂 SF4X 工艺，由三星奥斯汀工厂生产，延续 “美国本土制造” 的定位。三星为争夺先进制程客户，以优惠条款与投资吸引 Groq 合作，并参与了 Groq 2024 年 8 月的 D 轮融资及 2025 年 9 月英伟达 “收购” 前的最后一轮融资。但该产品因设计问题未能量产 —— 芯片上的 C2C 串并转换器（SerDes）无法达到宣传的 112G 速率，导致功能异常。

　　第三代 LPU（LP30）：英伟达将量产的首款 LPU 产品，跳过第二代直接迭代。产品本身无英伟达设计参与，但已修复第二代的 SerDes 问题。后续还将推出小幅升级的 LP35 版本，仍基于 SF4 工艺，需重新流片，将支持 NVFP4 数据格式，为抢占上市时间，暂不做其他大幅设计改动。

　　第四代 LPU（LP40）：将采用台积电 N3P 工艺与 CoWoS-R 封装，英伟达将深度参与设计，融入 NVLink 协议（替代 Groq 原生 C2C），并与 Feynman 平台深度协同。计划采用混合键合 DRAM 技术扩展片上内存， latency 与带宽略低于 SRAM，但远超传统 DRAM；SK 海力士将为其提供 3D 堆叠 DRAM。

　　SRAM 的优势是低延迟、高带宽，但密度低、成本高。因此，以 Groq LPU 为代表的 SRAM 架构设备，首 token 生成速度与单用户每秒 token 生成量极快，但总吞吐量受限 —— 有限的 SRAM 容量易被权重占满，留给随用户批量增加而扩容的 KV 缓存空间有限。而 GPU 在吞吐量与成本上更具优势。

　　这也是英伟达决定整合两种架构的核心原因：将延迟敏感、内存需求较低的解码环节，交由低延迟、高 SRAM 占比的 LPU 处理；将内存密集型的注意力计算，交由具备大容量高速内存（虽不及 SRAM 快）的 GPU 完成，实现优势互补。

　　LP30 芯片采用接近掩模版尺寸的单片设计，无需先进封装，500MB 片上 SRAM 占用大量芯片面积，而矩阵乘法核心仅提供 1.2 PFLOPs 的 FP8 算力，远低于英伟达 GPU。相比第一代 LPU（230MB SRAM、750 TFLOPs INT8 算力），性能提升主要源于制程从格芯 14nm 迁移至三星 SF4 工艺。

　　采用 SF4 工艺的核心优势：不受台积电 N3 工艺产能限制（当前 N3 工艺制约加速器量产，是行业算力紧张的关键原因），且无需依赖同样紧缺的 HBM，让英伟达可在不占用宝贵的台积电产能与 HBM 配额的前提下，扩大 LPU 产量，创造独特的增量收入与产能优势。

　　英伟达引入 LPU 的核心目标是提升高交互场景的推理性能，核心技术路径之一便是注意力与前馈网络解耦（AFD）—— 该技术最早在 MegaScale-Infer 与 Step-3 中提出。

　　预填充（Prefill）：处理完整输入上下文，属于计算密集型任务，适合 GPU 执行。

　　解码（Decode）：逐一生成新 token，属于内存受限型任务，对延迟敏感。LPU 的高 SRAM 带宽与低延迟特性，可显著加速这一迭代过程。

　　注意力（Attention）与前馈网络（FFN）是模型中的两类核心运算：

　　注意力运算：输出需传入 token 路由器，路由器将每个 token 分配给 k 个专家（每个专家对应一个 FFN）；解码阶段，注意力运算受 KV 缓存加载限制，批量扩大时 GPU 利用率提升有限。

　　FFN 运算：计算仅依赖 token 输入，无状态；批量扩大时 GPU 利用率提升更明显。

　　随着最先进的混合专家（MoE）模型稀疏度不断提高，token 可选择的专家池扩大，每个专家接收的 token 减少，导致利用率下降 —— 这正是 AFD 技术的核心应用场景。

　　注意力运算→GPU：GPU 擅长处理动态工作负载，其 HBM 容量可完全分配给 KV 缓存，提升单次处理的 token 总量，进而提高每个专家的平均 token 处理量，改善利用率。

　　AFD 技术中，GPU 与 LPU 间的令牌路由可能成为瓶颈（尤其在严格延迟约束下），路由流程包含 “分发（dispatch）” 与 “合并（combine）” 两步：

　　分发：通过全对全（All-to-All）集合运算，将每个 token 路由至最优的 k 个专家。

　　合并：专家运算完成后，通过反向全对全集合运算，将结果返回至源 GPU，继续下一层计算。

　　为隐藏路由通信延迟，采用 “乒乓流水线并行” 技术：除将批量拆分为微批量并进行计算流水处理外，令牌在 GPU 与 LPU 间循环传输（类似 “乒乓”），最大化重叠计算与通信时间。

　　LPU 加速解码的另一路径是推测解码：在 LPU 上部署草稿模型（draft model）或多令牌预测（MTP）层。

　　核心原理：对于 N 个 token 的上下文解码，若新增 k 个 token（kN），延迟仅小幅增加。利用这一特性，草稿模型 / MTP 层先预测 k 个新 token（小模型解码延迟更低）；主模型仅需对这 k 个 token 进行一次 “热身预填充” 验证，延迟相当于单次解码步骤。推测解码通常可将每步解码的输出 token 数提升 1.5-2 倍，而 LPU 的低延迟特性可进一步扩大延迟节省效果，提升吞吐量。

　　与 AFD 技术不同，推测解码中的草稿模型 / MTP 层需动态加载 KV 缓存（有状态），且模型体积达数十 GB（远超单个 FFN 的数百 MB）。为此，LPX 计算托盘的结构扩展逻辑 FPGA，可为 LPU 提供高达 256GB 的 DDR5 内存支持。

　　英伟达在 GTC 上展示的LPX 机柜包含 32 个 1U LPU 计算托盘与 2 个 Spectrum-X 交换机，这一配置与收购前 Groq 的原始服务器设计高度相似，但预计 2026 年第三季度量产时将有调整。以下是量产版本的核心细节：

　　LPU 部署方式：采用 “背对背” 安装，PCB 上表面与下表面各 8 个 LP30 模块，所有 LPU 互联通过 PCB 走线实现。这种设计可缩短 X、Y 维度的 PCB 走线长度，满足节点内全对全互联的高密度布线需求。

　　网卡功能：将 LPU 的 C2C 协议转换为以太网，连接 Spectrum-X 扩展网络，实现 LPU 与 GPU 的解码系统互联。

　　控制与内存扩展：通过背板与节点内其他 FPGA 互联，管理 LPU 的控制流与时序；每颗 FPGA 可提供高达 256GB 的额外系统 DRAM，若用户需完全由 LPX 承担解码流程，该内存池可用于 KV 缓存。

　　分为节点内、节点间 / 机柜内、机柜间三个层级，英伟达宣称单机柜扩展带宽达 640TB/s（计算逻辑：256 颗 LPU × 90 通道 × 112Gbps/8 × 2 方向 = 645TB/s，注：英伟达采用 112G 线G 有效数据率）。

　　节点间 / 机柜内拓扑：每颗 LPU 与机柜内其他 15 个节点的对应 LPU 通过 2×100G 铜缆背板连接；每颗 FPGA 与其他节点的 FPGA 通过 25G/50G 链路连接（同样通过背板）。单个节点需 510 个通道（1020 个差分对）用于节点间互联。

　　机柜间拓扑：每颗 LPU 通过 4×100G 通道连接至 OSFP 插槽，支持跨 4 个机柜互联。推荐采用菊花链配置，节点 0 与其他 2 个节点 0 连接，两端通过 9 米 AEC 线缆或光模块连接形成环形网络。

　　（共封装光学）路线图，黄仁勋在次日的财务分析师问答会上进一步补充说明。与行业预期不同，英伟达并未将 CPO 用于 Rubin Ultra Kyber 机柜的内部扩展，而是聚焦于构建更大规模的计算系统。

　　Kyber 机柜首次作为原型机在 2025 年 GTC 展示，此次披露的量产版本有显著调整：

　　：供应链透露的概念方案，由两个 NVL144 Kyber 机柜通过机柜间铜背板互联。面临的挑战：当前 NVLink 7 交换机最大端口基数仅 144 个（200G 端口），若实现 288 颗 GPU 全对全互联，需更高基数交换机，或采用蜻蜓网络拓扑并接受一定程度的超订阅。

　　Feynman 虽未披露过多细节，但从大会预览可知，其将集成三大核心技术创新：混合键合 / 系统级芯片互联（SoIC）、A16、CPO 与定制 HBM，是极具突破性的平台。核心悬念在于 CPO 的应用范围 —— 机柜内互联将沿用铜还是转向光，后续将在付费内容中披露可能的配置方案。七、

　　前身为 ICMS（推理上下文内存存储），是英伟达推出的 “G3.5 层” 存储解决方案，位于 G3 层（本地 SSD）与 G4 层（共享存储）之间，专为解决长上下文与智能体式工作负载中 KV 缓存快速扩张的瓶颈。KV 缓存存储层级挑战

　　：参考存储机柜架构STX 是基于英伟达 BlueField-4 的存储解决方案参考架构，用于补充 VR 计算机柜，明确规定了特定集群所需的硬盘、Vera CPU、BlueField-4 数据处理单元（DPU）、CX-9 网卡与 Spectrum-X 交换机数量。

返回列表

上一篇：军营观察丨一名士兵的成长“三部曲”

下一篇：金山毒霸软件管理专区