全栈智算系列直播回顾(下) | 万亿级参数大模型时代,超节点的优势与发展趋势如何?
10月30日,主题为“万亿级参数大模型时代,超节点的优势与发展趋势”的专家研讨会在益企研究院视频号成功举办。本期直播由益企研究院高级研究员祁金华主持,邀请了趋境科技引擎架构师谢威宇博士、新华三集团异构服务器产品部高级经理程凯、奇异摩尔首席网络架构专家叶栋、益企研究院创始人张广彬(狒哥)作为研讨嘉宾。

访问益企研究院视频号,点击10月30日直播回放,即可观看。上一期直播回顾中,发布了本期直播的部分精彩观点,本期为下半部分。
在超节点中,算力是尽可能多元好呢,还是有限多元好?
狒哥:这个问题不是想讨论异构算力调度,就讨论算力的多元性。在美国,有着不同的芯片厂商,AMD、博通这样的企业,他们既做算力芯片,也帮助其他企业定制XPU;英伟达这样的公司,则是既有算力芯片,又有网络芯片。不过,美国的芯片不如中国市场的芯片更为多元化。就以算力芯片而言,国内的大大小小的芯片公司要多得多。相比美国市场,中国AI市场的总量更小,玩家更多,对于产业的发展就会有一些挑战。因此在谈及多元化的时候,不仅是不同的GPU,不同的XPU,有侧重prefill的,也有侧重decode的,甚至CPU的算力也有独到之处。相比GPU,其内存速度不够快,但是其内存容量更大。因此,超节点需要主动地拥抱这种多元化,无论是Scale Up的协议,还是软硬件的生态,都非常重要。
程凯:在多元算力这个领域,可以用“分久必合、合久必分”来类比。最开始的时候,肯定是越多元越好,在经过这几年的演进之后,应该是有限多元更符合市场的实际需求。超节点这类产品最大的市场在互联网企业,大家关注的是成本。毕竟AI落地最终要考量每Token的成本,那么,算力如果是有限多元,收敛到有限的一些芯片之后,会提升出货量,则在超节点的成本角度、供应链的角度,都会更加合适。对于新华三的产品来说也是如此,不仅是超节点,包括通用标准机,目前而言还是尽可能多元的阶段。
谢威宇:超节点已经是有多元算力的状态,这种多元并不仅是GPU或者NPU之间的多元。超节点中,除了GPU之外,CPU也有一定算力,这也是可以利用起来的。很多人提及超节点,认为计算部分完全是交给了GPU来完成,CPU似乎并不参与。但是各大厂商的下一代CPU,都会带有一些矩阵指令集,或者向量化指令集,这些算力也是都能够利用起来的,这当然也是一种异构。趋境科技认为,如果把CPU的算力纳入超节点的工作中,比如完成一些容错的工作、算力备份的工作等,能够提高整个系统的稳定性,降低整个系统的成本。当然,从我自身写推理框架的角度来说,异构的硬件越多越好。这样的话,某一个计算负载,总能找到最优的一个硬件来运行,如果这些硬件是在超节点中高速互联在一起,那就会给整个推理框架的效率,带来非常多的性能提升空间。那么,从这个方向来说,我认为,算力是越多元越好。
叶栋:算力自然是百花齐放更好。从网路来说,目前也已经很多元了。尤其在协议领域,超节点在Scale Up里面,有非常多的协议,比如说移动的OISA协议,腾讯和中国信通院的ETH-X协议,博通的SUE(Scale-Up Ethernet)协议,以及UA Link等。国内各个厂家,包括芯片厂商,云客户等,也需要都从各自的技术、需求等进行一定程度的融合,类似于美国的ESUN。那么如何在短期内,在多协议的情况下,提供一个统一的方案,或者说融合到一个统一的框架中,这是值得期待的事情。这样就能够更好的实现多元化的XPU在底层的融合,支持更多的多元化算力。而从交换芯片的角度来说,即便有4-5种不同的互联协议,其最底层都是基于以太网,这个跟ESUN在某种程度上是一致的。
超节点是不是越大越好?多大规模是合适的?
程凯:应该说不存在什么超节点上限和够用的问题。超节点是跟计算和联接都有关系。超节点的AI加速卡性能越高,可能Scale Up的规模可以做的越大越好,因为能实现一卡一专家;但是如果卡的性能并不那么高,那么单纯追求规模,就不一定会有实际的性价比。目前来看,包括英伟达的超节点,还是Scale Up只做一层,不管是Blackwell的NVL 72还是下一代的Rubin NVL144,其实都是一层。如果交换芯片能力也够强、算力卡性能也够强,那么64卡,或者128卡,做Scale Up的一层就是比较合适的。
狒哥:在超节点中,很重要的就是几层来实现。如果做多层的话,会增加所需要的时延开销。实际上而言,如果你能够在不付出任何代价的情况下,把规模提高一倍或者两倍,那即便没有得到线性的收益增长,估计也没有人拒绝。问题就在于,提高规模,肯定要付出代价,只是看这个代价合不合适,能否接受。此外,在更大的Scale Up域中,其爆炸半径的可靠性,也是一个值得考虑的问题。这些各方面的代价,都是在超节点规模扩展的时候,要考虑的问题。
谢威宇:单纯从收益角度来说,也不是越大就收益越好。在DeepSeek 671B这种模型,只要尽可能把它的每个专家给打满,基本上就能满足需求。如果超节点越大,反而会出现问题。比如说请求进来的非常多之后,专家之间的负载均衡就会变得更大。因此,从软件的角度来说,并不是超节点越大收益越高,甚至可能大到一定程度,会变成一个负向的收益。
叶栋:肯定不是越大越好,越大会越贵,它的普及率一定是越低。去年之前,在AI领域的投入,动不动就是上千亿,那么投入和产出比就非常值得考虑。现在国内的AI大规模普及,DeepSeek功不可没。它可以用非常低的成本,实现同样的性能。超节点主要还是来自于大模型的需求,一个大模型所需要的训练数据量是它参数量的20倍,相应所需要的算力是跟参数的平方成正比。从这个角度来说,根据模型可以估算出算力的需求,就可以大致知道所需要的超节点的规模。因此,不是说超节点越大越好。此外,在大模型的训练领域,模型已经训练得比较充分了,推理变得更加重要。在这种情况下,不需要所有资源都来投资做训练,在训练方面,考虑到实际需求、成本,以及最终的投入产出比,要选择合适规模的超节点。
超节点带来了部署和维护形式的变化,对于智算中心来说,有什么挑战?
狒哥:我觉得,在超节点时代,可以总结为几个字母:TMG,即TB、MW、GW 。也就是说,超节点的互联带宽要达到TB级别,单机柜的功耗会得到兆瓦(MW)级别,相应的智算中心的功耗会达到GW级别。在智算中心的角度,一个巨大的64卡或者128卡,或者144的机柜,其几百千瓦或者500千瓦以上的功耗,就可以被认为是兆瓦级别,那么它就需要液冷以及相应的智算中心液冷基础设施。现在来看,一个标准超节点的机柜,重量会接近两吨。一个双宽即1.2米宽的机柜,类似于阿里发布的磐久128卡的机柜,重达4.5吨。这就需要智算中心的整体承重强度大幅度提升。同时,对于智算中心的承重能力、供电能力、散热能力,都会有很高的要求。
程凯:超节点改变的,最重要的肯定是机房基础设施,不管是承重、散热还是供电,跟传统的服务器有很大的区别。此外,在运维方面,传统的服务器和交换机,都有成熟的各种应用,相关的管理方式、故障排查也都很成熟。但是到了超节点阶段,相关的运维需求,不管是算力还是电力、液冷等,以及跟现有运维系统的对接,都意味着巨大的挑战。而且,超节点由于其复杂的铜缆连接,内部会有数千根铜缆,排查故障的时候,会遭遇完全不一样的困难。第三点来说,就是超节点的成本巨大,一套最小的逻辑单元都要大几百万上千万,对于智算中心来说意味着很大的负担。
谢威宇:从软件层面来说,超节点是为了降低Token成本,但是用户的请求有波峰波谷,那么在波谷的时候,如何利用其闲置的算力资源?这个是一个问题。
叶栋:跟云计算中的任务松散耦合不同,大多数时候,超节点中的任务是紧耦合的关系,所有的算力都是为同一个计算任务提供服务,一旦出现网络问题、算力问题,那么所有其他GPU运行的任务就可能中断,因此在超节点中网络拥塞、故障判断等都非常重要。要通过流量控制、快速故障诊断和恢复,来让超节点真正高效运行和使用。
小结:
在此次直播的最后,各位嘉宾也对超节点的未来做了一些总结性分享。狒哥表示,超节点对行业的未来应用是一个全方位的挑战;程凯认为随着AI应用的真正落地,最终大家更在乎的是超节点的成本,超节点一定是一个持续的热点;谢威宇则强调,随着对Token需求的急剧上升,超节点在未来的的几年会有一个广泛的应用前景;叶栋表示,希望能够跟所有相关厂商一起,构建一个超节点的最佳解决方案,构建算力共同体。