这是 AI 硬件军备竞赛的最新转折,Numenta 采用了一种新颖的方法来提高 CPU 性能,Numenta 已经证明,通过应用一种新颖的方法,英特尔至强 CPU 在人工智能工作负载上的性能可以远远超过最好的 CPU 和最好的 GPU。
据 Serve the Home 称,这家初创公司利用基于这一理念的一系列技术,以 Numenta 智能计算平台 (NuPIC) 为品牌,在人工智能推理方面解锁了传统 CPU 的新性能水平。
真正令人惊讶的是,它的性能明显优于专门为处理人工智能推理而设计的 GPU 和 CPU。 例如,Numenta 采用了 Nvidia 报告的 A100 GPU 性能数据的工作负载,并在增强型 48 核第四代 Sapphire Rapids CPU 上运行。 在所有场景中,基于总吞吐量,它都比 Nvidia 的芯片更快。 事实上,它比第三代 Intel Xeon 处理器快 64 倍,比 A100 GPU 快 10 倍。
利用神经科学提升人工智能性能
Numenta 以其受神经科学启发的人工智能工作负载方法而闻名,它严重依赖稀疏计算的理念——这就是大脑在神经元之间形成连接的方式。
如今,大多数 CPU 和 GPU 都是为密集计算而设计的,尤其是人工智能,这比大脑工作的上下文方式更加暴力。 尽管稀疏性是提高性能的必由之路,但 CPU 却无法以这种方式良好工作。 这就是 Numenta 发挥作用的地方。
这家初创公司希望通过将其“秘密武器”应用于通用 CPU,而不是专门为处理以人工智能为中心的工作负载而构建的芯片,从而释放人工智能模型中稀疏计算的效率增益。
虽然它可以在 CPU 和 GPU 上运行,但 Numenta 采用了 Intel Xeon CPU,并应用了其高级矢量扩展 (AVX)-512 和高级矩阵扩展 (AMX),因为英特尔的芯片是当时最可用的。
这些是 x86 架构的扩展——作为额外的指令集,可以让 CPU 执行更苛刻的功能。
Numenta 使用 Docker 容器提供 NuPIC 服务,并且可以在公司自己的服务器上运行。 如果它在实践中发挥作用,这将是重新利用数据中心中已部署的 CPU 来处理 AI 工作负载的最佳解决方案,特别是考虑到 Nvidia 业界领先的 A100 和 H100 GPU 的等待时间较长。