全栈智算系列直播回顾(上) | 万亿级参数大模型时代,超节点的优势与发展趋势如何?
10月30日,主题为“万亿级参数大模型时代,超节点的优势与发展趋势”的专家研讨会在益企研究院视频号成功举办。
此次研讨会是“全栈智算系列直播”栏目的第三期,第一期为智算中心对网络的需求与应对策略,第二期为大模型已逐渐深入行业应用的情况下,如何应对安全隐患?本期直播由益企研究院高级研究员祁金华主持,邀请了趋境科技引擎架构师谢威宇博士、新华三集团异构服务器产品部高级产品经理程凯、奇异摩尔首席网络架构专家叶栋、益企研究院创始人张广彬(狒哥)作为研讨嘉宾。

访问益企研究院视频号,点击10月30日直播回放,即可观看。由于篇幅较长,如下是本期直播回顾精彩观点的前半部分。
超节点诞生的技术背景,该如何定义超节点?
狒哥:超节点,既有逻辑的概念也有物理上的概念。从逻辑的角度说,我们可以先理解一下节点的定义。所谓节点,就是单个主机操作系统,镜像下的系统,就叫一个节点,它不一定映射到物理设备上。那所谓超节点,到底是超大的节点,还是超越节点?到目前为止,还没有特别公认的定义。在物理层面,大家可能好理解一些。原有的机架式服务器,无论1U还是2U,它可以被称之为一个节点。这些1U、2U的服务器,通过以太网组成一个分布式的集群,它并不能被称为超节点。超节点的兴起,跟现在的GPU或者说XPU相关,也跟Scale Up的互联关系很大。GPU采用直连的方式,或者通过交换芯片,包括NV Switch的方式,组成一个范围相对较小的网络,那无论是八卡的A100或者H100,无论是6U、8U还是10U,它可以被称之为一个节点。在过去两年,英伟达把Scale Up域的范围扩大到了72个,在一个机柜中容纳进了更多的节点,包括去年推出的GB 200 NVL72,以及今年的GB 300 NVL72等。这种将72张卡放在一个机柜里面,大家就可以讲这种机柜级或者整机柜级的服务器,跟超节点的概念产生紧密联系。但是也不能说这就是超节点。因为目前国内也有企业推出了单机柜128卡的节点,但是它内部是两个Scale Out域,那它应该算是一个超节点还是两个超节点?AMD公司、阿里巴巴等,都在做1.2米宽的机柜,1.2米深或者1.5米深,在这个范围内实现卡的互联。这些卡组成了一个超节点。或者,跨越更多机柜,由多个机柜组成,它也被称之为超节点。因此,从逻辑上和从物理上,都各有超节点的定义。但是就像肉体和精神,它是互相成就的。
程凯:主流的超节点,典型的物理形态都是如此,跟传统的服务器不一样,超节点大多数已经从机架级演进为机柜级。超节点采用高速互联的方式连接了大量的卡,最少一般都是占了一个机柜。一个机柜中集成了64张或者72张GPU卡。无论是GB200还是GB300,物理形态的变化只是表象,更关键的其实还是在逻辑层面,它们本质上构建了一个规模更大的Scale Up域。在这个Scale Up域中,所有的计算资源,包括CPU、GPU都是通过专有协议进行连接,主要特点为高带宽、低延迟以及更大的扩展性。其内部的通信带宽,远超于传统服务器之间的RDMA网络。更重要的是,这些Scale-Up协议提供了一个统一的、缓存一致的内存地址空间,从而实现了GPU显存资源的池化。这使得在域内能够极其高效地运行大模型,顺畅地执行模型并行、张量并行等复杂的AI任务。
叶栋:从网络的角度来说,超节点就是通过高带宽、低延时将成百上千的GPU互联起来,像一个巨型的GPU服务器一样工作,这样的产品就可以被认为是超节点。英伟达对于超节点的定义是通过NV Link的交换互联的16卡以上的GPU集群;从华为的角度来说,只要是满足内存语义统一且高带宽的互联,那么无论是单机柜还是多机柜,都可以被称之为超节点。从OCP的角度来说,带宽超过1TB、用内存语义、支持8个节点到1K个节点,这样方式的产品,都可以被认为是超节点。
谢威宇:关于超节点,我更认同关于网络带宽方面的定义。从软件层面来讲,超节点最大的区别,就是它高速互联的带宽,它给软件的编写带来了更多的可能性。
超节点的优势场景是什么?
谢威宇:我们趋境科技认为,超节点的优势场景在推理,主要原因在于MOE和PD分离技术的出现和普及。趋境科技有一个业界知名的框架叫做Mooncake,它的核心思想就是以存换算,PD分离架构是实现“以存换算”目标的关键技术路径。我们趋境科技应该是业界率先提出PD分离技术的企业,PD分离本质上就是把大语言模型推理的两个阶段prefill(预填充)和decode(解码)这两个阶段给分开。PD分离的好处在于,这两个阶段本质上是不同的计算形态。Prefill通常是非常大型的矩阵乘法,瓶颈在于设备的计算能力,在小节点而言,它的瓶颈就是带宽。在小节点的场景下,用户的并发数量无法提升。超节点之所以在这个场景下有优势,原因在于能够把decode阶段的memory bound去除,因此能够将计算的算力完全发挥出来。在超节点上面的专家并行,是把每一个用户的token集中起来,在这个过程中,通信就发挥着很大的作用。KV Cache具备非常大的数据量,如果通信不快的话,那么只能请求去找机器,在超节点中,这个KV Cache就可以被分配到对应的节点中处理,这就能带来处理能力的提升。因此,超节点主要就是做了一件事情,它通过增加整个系统的容量,让所有的这些设备,完全发挥它的计算能力,而不会卡在带宽上面。
程凯:超节点的优势场景在于处理通信开销较大的AI任务中。如果传统单机八卡的机器运行的AI任务,通信开销超过20%-40%的时候,那么采用超节点的收益就非常明显了。最典型的就是MOE、PD分离的最后阶段等等。
叶栋:大模型的训练,以及高并发的推理、实时交互等场景,都是超节点的优势场景。也正是这些需求,推动了超节点的诞生和发展。
狒哥:在通算时代,大家对数据共享的访问,主要还是慢速共享,相对低速的SSD和更慢速度的硬盘,他们对于网络带宽和时延的要求并不太高。而在智算时代,无论是MoE还是万亿级的参数,或者是PD分离的场景,它都需要在很大的范围内实现高速共享,包括互访共享内存中的数据,以及跨卡跨机访问内存数据等。因此,它对带宽和时延的要求、内存语义的要求就很高。因此,内存的地位就变得非常重要。刚才提到的PD分离,也在促进GPU的异构化。之前的集群中,需要XPU卡是相对同构的,比如说同样都是高性能GPU或者加速器等。但是在PD分离场景下,可以有相对显存较强的卡,也可以有相对廉价的卡,前者进行decode,后者进行prefill。所以,现在也有一些企业发布不同版本的服务器,分别面向prefill场景和decode场景。此外,Scale Up网络也在变化中,在NV的体系里面,Scale Up主要是GPU之间的互相连接;在有些超节点产品里面,其Scale Up网络既有GPU也有CPU。可以说,MoE和PD分离对硬件行业的影响,正在逐步显现出来。
在超节点中,Scale Up和Scale Out会不会在将来模糊化?在底层实现统一?
叶栋:Scale Out实际上面临着三个问题:带宽的提升、拥塞的控制、成本的控制;Scale Up则面临着五个挑战:带宽的提升、对灵活拓扑的支持、对多协议的支持、内存语义的支持,以及拥塞控制。因此,Scale Out和Scale Up面临着一些共同的挑战。比如说,今天的Scale Up网络,在端到端拥塞的解决方面,可以借用Scale Out的链路层LLR的Retry,以及基于信用的拥塞控制CBFC(Credit-Based Flow Control)等。消息语义在Scale Up中,那就可以参照Scale Out的RDMA。它们都需要高带宽低延时。因此,这这些方向上,从底层的技术来说,其实有很多共通性。在技术上已经可以融合。
然后,从交换机芯片和端点而言,在超节点中,需要支持从8个节点到几百甚至上千个节点,以及多种协议。对于基于以太网的超节点来说,即底层物理层、链路层都是以太网,那也就意味着不管是Scale Out还是Scale Up里面的交换机,都有了融合的基础。最近被提及的ESUN(Ethernet for Scale Up Networking),也正是统一到了以太网。在端点的融合中,Scale Out场景主要是超级网卡;在Scale Up场景中,主要是网络芯粒。我们可以在芯片的微架构层面,以统一的架构实现超级网卡的芯片和GPU的网络芯粒。这也是一种融合。
谢威宇:从用户的角度出发来说,Scale Up 和Scale Out特别像高性能计算中矩阵中的稠密矩阵和稀疏矩阵的关系。如果一个矩阵是完全稠密的,那这个网络就是完全互联的,那么这时候就是完全的Scale Up;那么如果是一个总线系列呢,这个矩阵就是像一个单位矩阵,它就是一个完全的Scale Out。但是在这两个状态中间,可能会有很多中间的状态,比如说一些小互联等。
程凯:Scale Out 和 Scale Up两个网络分别解决了不同的问题。Scale Out主要是集群的扩展性,而Scale Up主要是高性能的网络,包括高带宽、低时延、内存语义等。但是,在未来的一个时间范围内,不可能实现几万张卡的Scale Up。因此这两种网络肯定在未来一段时间同时存在。
在超节点中,铜连接还是光连接?谁是未来?
程凯:在超节点的物理层,连接方式有两种,光互联和铜互联。无论是板内的走线,还是板外的超节点之间,数十张卡之间的互联,铜互联的方式依然是超节点的主流。优势就是在于,铜互联更加稳定可靠,成本更低,但是距离会有较大的限制,比光互联要短的多。如果Scale Up想要实现较大规模的集群,比如两层跨柜的卡间互联,那么光互联的方式就更有优势。目前来看,主流的超节点产品都是以铜互联为主。我们认为,在未来的一段时间内,在一层的Scale Up范围内,将Scale Up域做大的基础上,要追求更大规模的话,柜间多柜的互联使用光互联。
叶栋:此前的AI节点服务器都是一机八卡,其实不存在选择问题。不过由于铜互联信号衰减的问题,在高速网络,比如说112G的SerDes、尤其是到了224G的SerDes,衰减非常厉害,因此很快会达到电能够驱动的长度上限。这也就是为什么跨机柜进行互联的时候,就需要采用光互联的方式。在过去,光模块非常贵,ACC(有源铜缆)和光模块价格相差5-10倍。随着NPO(Near-Packaged Optics,近封装光学)等新的光技术出现并逐渐成熟之后,相应的光模块成本正在下降,成熟度也会进一步提升。在这个时候,包括可以驱动长距离、没有串扰等等光互联的优势,就会使得超节点从单机柜扩展到非常大的规模。因此整体来说,未来应该是光电互补,也就是铜互联和光互联都会存在且互相补充。在更长远的未来,光互联会起到更大的作用。
狒哥:某种程度上来说,限制超节点的物理形态的核心技术之一,就是铜互联和光互联技术发展的成熟度。不过,光模块的传输距离长,这一点铜模块无可比拟,不过目前而言,光模块价格高、功耗大,故障点也多,所以大家会觉得采用铜互联是更好的选择。只是,铜互联的传输距离是很大的问题,它对于高速信号也就是只能传输一米左右。因此,不管是机柜级的,还是超宽的机柜,机柜的高度都不能超过两米。因为上延1米,下延1米,深度也是类似。在CPO(Co-packaged optics,共封装光学)、NPO等技术有足够竞争力之前,超节点还是以铜互联为主,那么其互联距离也就是1米左右。那么,如果距离过长,要突破现有的铜互联的距离限制,那就需要用光互联,那么形态就可以有多种变化,可以做到很大,比如说可以300多张卡的互联。更重要的是,单个机柜也不需要做到太高功率,100多千瓦可能就能满足。如果还是按照铜互联的技术,比如说英伟达下一代的超节点产品,其单机柜功耗就会高达500多千瓦。因此,大家还是希望类似的光互联技术能够早日成熟起来,不然的话,在铜互联的约束距离范围内,在供电和散热方面,在产业界受到的挑战实在太大。
(未完待续。)