英特尔将 CPU、GPU 和内存芯片拼接在一个称为 XPU 的单一封装上的宏伟计划已经暂缓。英特尔超级计算集团副总裁杰夫·麦克维 (Jeff McVeigh) 透露,该公司的 Falcon Shores 平台不仅会迟到,而且不会是一个 XPU。
英特尔最初计划其 Falcon Shores 芯片同时具有 GPU 和 CPU 内核,从而创建该公司的第一个用于高性能计算的「XPU」。几个月前英特尔宣布这款产品将转向纯 GPU 设计并将芯片推迟到 2025 年,这让行业感到震惊——因为另外两家处理器巨头 AMD 的 Instinct MI300 和英伟达的 Grace Hopper 都具有混合 CPU+GPU 设计。
麦克维说:「之前将 CPU 和 GPU 集成到 XPU 中的努力还为时过早,」他认为,自从 Falcon Shores 详细介绍以来,市场在这一年发生了巨大变化,以至于继续进行下去不再有意义。麦克维将这种选择比作登山。「当在登山的时候,如果天气变坏,你感觉不对,你不会仅仅因为它在那里就去顶峰。你会推迟到当你准备好了,当生态系统准备好了,当气候准备好了。」
根据麦克维的说法,当今的 AI 和 HPC 工作负载过于动态,无法进行集成。「当工作负载固定时,当你非常清楚它们不会发生巨大变化时,集成就很棒,」他补充道。虽然 Falcon Shores 不会成为 XPU,但这并不意味着英特尔不会在适当的时候重启该项目。
英特尔发布了新的 HPC 和 AI 路线图,其中没有显示 Gaudi3 处理器的继任者——相反,Gaudi 和 GPU 与 Falcon Shores GPU 合并,因为它继承了英特尔首屈一指的 HPC 和 AI 芯片。英特尔表示,「计划整合 Habana 和 AXG 产品 [GPU] 路线图」,但整合的细节很少。
采用标准以太网交换,很像英特尔专注于 AI 的 Gaudi 架构,数量不详的 HBM3 内存,以及「I/O 旨在扩展」,这可能意味着 Falcon Shores 将配备不同的内存容量选项。英特尔确实表示 Falcon 将配备高达 288GB 的 HBM3 和 9.8TB/s 的总内存吞吐量。正如预期的那样,它将支持较小的数据类型,如 FP8 和 BF16。
对于英特尔来说,英特尔放慢 GPU 发布节奏意味着它将不得不利用旧产品与英伟达和 AMD 的混合架构产品竞争。
AMD MI300
1 月,AMD 展示了其迄今为止对加速处理单元 (APU) 的最佳外观,这是 AMD 对 CPU-GPU 架构的专业术语。
根据 AMD 在 1 月份分享的封装照片,该芯片将配备 24 个 Zen 4 内核——与 11 月份在 AMD 的 Epyc 4 Genoa 平台中使用的相同——分布在两个由六个 GPU 芯片和八个高带宽内存组成的小芯片上模块总共有 128GB。
在性能方面,AMD 声称该芯片提供的「AI 性能」是 Frontier 超级计算机中使用的 MI250X 的 8 倍,同时每瓦性能也提高了 5 倍。根据 The Next Platform 的说法,考虑到对具有稀疏性的 8 位浮点 (FP8) 数学的支持,这将使该芯片的性能与四个 MI250X GPU 相当,并且可能使该芯片功耗处于 900W 左右如果属实,那么 MI300A 将成为一款很「热」的芯片,几乎肯定需要液体冷却才能驯服。对于 HPC 系统来说,这应该不是问题,其中大部分已经使用直接液体冷却,但可能会迫使遗留数据中心升级其设施,否则就有可能被抛在后面。
英伟达 Grace Hopper
从技术上讲,AMD 并不是唯一一家为数据中心追求 CPU-GPU 组合架构的公司。AMD 将与英伟达的 Grace Hopper 芯片展开竞争。
MI300 和 Grace Hopper 是截然不同的路线。英伟达解决这个特殊问题的方法是使用其专有的 900GBps NVLink-C2C 互连将其 72 核 Arm 兼容的 Grace CPU 与 GH100 芯片配对。虽然这消除了 PCIe 作为两个组件之间的瓶颈,但它们是不同的,每个都有自己的内存。GH100 芯片有自己的 HBM3 内存,而 Grace GPU 耦合到 512GB 的 LPDDR5,适用于 500GBps 的内存带宽。
另一方面,MI300A 看起来是一个诚实的 APU,能够寻址相同的 HBM3 内存,而无需通过互连来回复制它。
哪种方法会带来更好的性能,哪些工作负载尚未得到解决,但唯一确定的事英特尔不会在这场战斗中占据一席之地。
英特尔表示,它将利用 CXL 接口,使其客户能够利用可组合的架构,该架构可以在其定制设计中将各种 CPU/GPU 比率结合在一起。然而,CXL 接口仅在元素之间提供 64 GB/s 的吞吐量,而像 Nvidia 的 Grace Hopper 这样的定制 CPU+GPU 设计可以在 CPU 和 GPU 之间提供高达 1 TB/s 的内存吞吐量。对于许多类型的工作负载——尤其是需要大量内存带宽的 AI 工作负载,这比 CXL 实现具有性能和效率优势。更不用说元素之间固有的低延迟连接和其他优势,如更高的性能密度。