GPU，未来怎么发展？

2024-10-20 14:17 来源：证券之星阅读量：11624

如果您希望可以时常见面，欢迎标星收藏哦~

“我们实际上并没有考虑芯片。”

伊恩·巴克一生中的大部分时间都在思考芯片。但现在，这位全球最大芯片公司 Nvidia 的加速计算主管，正在做更宏大的事情。

“你不能把 Blackwell 当作芯片来买，”Buck 告诉DCD，他指的是下一代 GPU 产品线，Buck 也是该公司数据中心和 HPC 业务的副总裁。“这是有原因的 - 它希望与 CPU 集成。它希望与 NV Link 集成。它希望连接起来。”

Nvidia 不再专注于单一的半导体业务，而是转型成为一家平台企业。它不再为单一的加速器而烦恼，而是专注于大型集成系统。

“这是我们在 Pascal 一代做出的决定，因为人工智能需要跨多个 GPU，”Buck 说道。“P100 时代改变了我们构建的东西以及我们推向市场或提供的东西。现在，是系统。”

Buck 表示，这已经开始改变数据中心的构成。“计算变革的机会始于超级计算，但随着人工智能的出现，这一机会已经扩大。

“每个数据中心都变成了一个 AI 工厂。它不是以浮点运算次数或兆瓦来衡量的，而是以每秒令牌数以及您将多少 TB 的数据转化为公司的生产力收益来衡量的。”

无论是否是泡沫，这一机遇都引发了新数据中心建设热潮。“但他们不能等两年才进行建设项目，”Buck 说道。“因此，我们看到人们加速淘汰旧基础设施；他们只是将 CPU 基础设施移出，将 GPU 移入，然后加速建设，这样每个数据中心都可以成为 AI 工厂。”

他补充道:“你将看到的不仅仅是 Nvidia 的一款 GPU，而是多种平台和生态系统的混合体，让每个人都能构建自己所需的 AI 工厂和工作负载。每个人都将处于这一旅程的不同阶段或不同的优化点。”

当然，尽管 Nvidia 试图摆脱对这些所谓“AI 工厂”内特定芯片的关注，但它们的热设计点决定了系统其余大部分部件的构成。“Hopper 的功率为 700W，我们确实采用了空气冷却，”Buck 说道。

“HGXB100 的功率也是 700W，它的设计正好适合 Hopper 的位置，”他补充道。“因此，当 HGXB100 上市时，我们所有的服务器、整个数据中心，甚至机架功率都可以保持不变。”

Buck 声称，行业可以“利用整个生态系统，对其进行升级并大规模部署”。他还表示，客户“可以充分利用 Blackwell GPU，因为 P4 是转换引擎，可以将 NV Link 速度提高一倍。因此，Blackwell 的上市速度将比 Hopper 快得多，部分原因就在于此。”

该公司还推出了 1,000W 版本的 HGX - “同样的硅片，略微修改了服务器，它们必须稍微高一点，并且采用不同的空气冷却解决方案。基本上，这是空气冷却所能达到的最大效果。”

但在那之后，事情就变得有点复杂了。“对于 NVL72，我们希望确保拥有最好的产品，”Buck 说道，机架配有 B200 GPU。“每个 GPU 的功率为 1,200W，这成为液体冷却的真正驱动力。

“1U 中有 4 个 GPU？Liquid 对于发挥 NVL72 的优势至关重要。这可为您带来 30 倍以上的推理性能。”

然而，最好的并不总是最好的。“TDP 并不是回答这个问题的正确方式，”他辩称。“工作负载是多少，什么最适合您的配置？如果您正在进行 70 亿或 700 亿的参数模型推理，HGX 可能是理想的选择，它可能不需要一直使用 100% 的功率。”

然而，趋势显然是芯片尺寸更大、功耗更大、需要冷却到更低的温度。Nvidia 本身是美国能源部 Coolerchips 项目的一部分，该项目专注于为越来越热的半导体提供彻底的冷却解决方案。

Buck 拒绝评论 TDP 的发展方向，尤其是在公司转向每年发布 GPU 的情况下。“我们只是尽可能快地运行，”他说。“不等待。不保留任何东西。我们将尽我们所能打造最好的产品并继续前进。”

半导体精品公众号推荐

专注半导体领域更多原创内容

关注全球半导体产业动向与趋势

今天是《半导体行业观察》为您分享的第3921内容，欢迎关注。

『半导体第一垂直媒体』

实时专业原创深度

公众号ID:icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

免责声明：该文章系本站转载，旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议，仅供读者参考。

图文推荐