去年年底,当AMD发布MI350X芯片时,业内分析师们惊讶地发现其理论算力已经接近英伟达的Blackwell架构。但在实际测试中,运行同样规模的GPT-4模型训练任务,AMD平台的完成时间却比英伟达长了18%。这个差距并非来自GPU本身,而是源自一个常被忽视的环节——网络传输。
现代AI训练不再是单张显卡的独角戏。当一个训练任务分布在数万个GPU上时,数据传输的微小延迟会被指数级放大。业内数据显示,网络延迟每增加1微秒,大规模AI集群的整体效率就会下降0.3%。AMD目前依赖博通等第三方网络芯片,其数据传输延迟比英伟达的NVLink技术高出约15微秒。这意味着,即便GPU拥有相同的理论算力,AMD平台在实际应用中的有效算力可能损失近5%。
英伟达的成功不仅在于GPU设计,更在于其将网络互联技术与计算架构深度整合的能力。从InfiniBand到NVLink,这些专有技术确保了数据在GPU间的高速流动。相比之下,AMD采用的通用网络方案就像在高速公路上设置了多个收费站——每个节点都可能成为瓶颈。在需要频繁交换参数的分布式训练中,这种设计差异的影响尤为明显。
表面上看,AMD的解决方案似乎更具成本优势。但云计算厂商的采购决策往往基于”每美元算力”这一关键指标。由于网络延迟导致的效率损失,AMD平台的实际单位算力成本反而高出竞争对手约12%。这个数字在动辄数亿美元的AI基础设施投资中显得格外醒目。
不过,局面正在发生变化。AMD最近收购Pensando的举动显示其正在补强网络技术短板。即将推出的MI450系列据说会集成更先进的互联技术,这可能改变现有的竞争格局。毕竟在AI这场马拉松中,暂时的落后不意味着永远落后。
所有资源来源于网络,如有侵权请联系站长。
参与讨论
那个啥,Pensando收购完就能搞定延迟?不太信