本报讯 (记者梁傲男)在极致追求Coding效果的同时,智谱也在提升AIInfra上界。
过去几年,AIInfra的竞赛长期集中在单一维度:部署更多、更快的GPU。然而,当推理集群规模扩展到千卡、万卡级别后,一个新的瓶颈开始显现——每处理一次用户请求,集群内部都需要持续、高频地互相传递大量中间数据,网络开始成为决定整个系统吞吐量、响应速度和成本的关键变量,甚至成为超大规模AIInfra的主要瓶颈。
近日,智谱联合驭驯网络与清华大学,在GLM-5.1线上生产集群中完成了新一代网络架构ZCube的规模化落地。在线上GLM-5.1coding场景中,在保持GPU算力、软件栈与应用不变的前提下,ZCube节省了33%的交换机与光模块成本,同时将GPU平均推理吞吐量提升了15%,TTFTP99降低了40.6%。
这组数字意味着什么?同样的硬件投入,智谱的GLM大模型现在每秒能多响应15%的API请求。对于服务上百万开发者的大模型API平台而言,这直接对应更高的并发上限、更低的排队延迟,以及在流量峰值下更稳定的用户体验。
成本端的变化同样显著。ZCube架构所需的交换机和光模块比原有方案少三分之一。规模越大,这个差值越可观。
更关键的是,这项升级的边际成本接近于零:GPU不换,服务器不换,软件代码不改,纯粹是组网架构的替换。这意味着智谱已有的算力资产在同等投入下释放了更高的产出,相当于存量资产的效率重估。
值得一提的是,ZCube技术被国际顶会ACMSIGCOMM2025评价为“显著改变整个行业对网络的认知方式”,此次在智谱的落地实践是ZCube架构首次在真实大规模推理集群中完成生产验证。
在业内看来,在大模型竞争日趋激烈、算力资源紧张的背景下,这次实践提供了一种不同的思路:与其堆更多GPU,不如让现有GPU跑得更顺。随着大模型推理集群规模的扩张,这一影响将被进一步放大——网络瓶颈会随集群规模指数级加剧,而ZCube这类扁平化架构的优势也将进一步凸显。
同样在本月,OpenAI联合NVIDIA、AMD、Intel、Microsoft、Broadcom,向业界发布了MRC(MultipathReliableConnection)协议——一种通过多路径并发传输、在微秒级绕过链路故障的新型网络传输协议,并已部署在其最大规模的超算集群中。不同的是,MRC在协议层发力,通过多路径并发传输对抗网络拥塞;ZCube则在架构层动刀,从拓扑设计上消除拥塞产生的根源。前者优化“交通规则”,后者重新规划了整张“路网”。
(编辑 张明富)