图解第四代英特尔至强可扩展处理器家族

今天,代号Sapphire Rapids(SPR)的第四代英特尔至强(Intel Xeon)可扩展处理器,终于来了。

从三代Lake变到Rapids,有继承,有发展。这里的继承是指2D Mesh(网格)架构,发展是指Chiplet(小芯片)技术,都与CPU核心数的增长密切相关,而又不止于此。

第四代英特尔至强可扩展处理器(以下简称“四代至强CPU”)的核心数最多可达60个,比代号Ice Lake(-SP)的第三代至强可扩展处理器高出50%。相应的,公开款的TDP指标上限,也从270瓦(W)一跃而至350瓦。

这一波核数增长的关键是,大英(终于)从单片式(monolithic)的die,转为四等分的die拼接。

这早就不是什么秘密,不到一年前,在《2021中国云数据中心考察报告》第二章“多元算力”篇,我用AMD初代EPYC(代号Naples)和AWS Graviton3两位“前辈”做了简单的类比。四代至强与EPYC初代的共同点是对等的4个die(AMD称之为MCM);与Graviton3的共同点是2D Mesh架构、DDR5和PCIe 5.0。

区别在于,Graviton3的Chiplet是将DDR5、PCIe 5.0等外围I/O分离出去,核心复合体(Core Complex)还是在同一个die上,保持了较好的整体性。四代至强则是核心复合体也一视同仁的分为4份,通过英特尔的EMIB(Embedded Multi-Die Interconnect Bridge,嵌入式多芯片互连桥接)技术连接为一个近似单片(quasi-monolithic)的“die”,相应的2D Mesh架构也就更为复杂。

既然全部四等分,也就不难理解,四代至强CPU的很多关键部件,都是4的倍数,包括但不限于:

  • (最多)4个16GT/s的UPI,用于CPU之间的通信;
  • 8个DDR5-4800(1DPC时)内存通道;
  • 4个HBM2e高带宽内存die……

特别值得一提的是四代至强CPU集成的4种加速器,分别是:

  • 优化流数据移动和转换操作的数据流加速器(Data Streaming Accelerator),简称DSA;
  • 用于加速加解密和数据压缩解压缩的QuickAssist技术,简称QAT;
  • 用于网络的动态负载均衡器(Dynamic Load Balancer),简称DLB;
  • 用于高级数据分析的存内分析加速器(In-Memory Analytics Accelerator),简称IAA。

不同于CPU核心集成的AMX(Advanced Matrix Extensions,高级矩阵扩展),DSA、QAT、DLB和IAA的集成是die级的——每个die各1个,每个CPU最多各4个。换句话说,它们4个,和CPU的核心数没有对应关系。

核心数与2D Mesh架构的组织方式有关,四代至强CPU的die分为XCC(eXtreme Core Count,最多核or极多核)和MCC(Medium Core Count,中等核数)两种(三代至强CPU是XCC和HCC),分水岭是32核——既有XCC,又有MCC,可以用UPI的数量辅助判断:4个UPI的是XCC,3个UPI的是MCC。

至强可扩展处理器的SKU Number(我愿称之为“型号”)规则也得以保留,数字第二位是 4 代表第四代英特尔至强可扩展处理器,第一位代表所处级别,有6个等级,其中4个一直都在:

  • 8:Platinum(铂金);
  • 65:Gold(金);
  • 4:Silver(银)。

在第三代英特尔至强可扩展处理器中断的3和9也回来了:

  • 3:Bronze(铜);
  • 9:在第二代英特尔至强可扩展处理器加入,可能因为“胶水”的原因,仍属于Platinum。这一次被授予集成HBM2e高带宽内存die的SKU,单开一个Max系列。

铺垫了半天,终于可以快进到SKU数字解读的环节。英特尔把这些SKU分为两大类,各5个细分类别。首先是各种通用(General Purpose,GP)型,最大的共同点在于4种die级加速器的(默认)数量:仅SKU数字最后以 + 号结尾的有DSA、QAT、DLB和IAA设备各一,其他都只有1个DSA设备。

(PS:为方便手机端阅读,我们根据英特尔官方的第四代至强产品SKU图重新制表,精简拆分成10个小图,难免会有疏漏之处,以文末“阅读原文”链接中的原始数据为准)

换句话说,第四代英特尔至强可扩展处理器的每个SKU都至少有1个DSA设备,其他3种(加速器)设备要么是没开,要么数量不定,得看具体情况。

在通用大类中,还有几条除单路外普遍适用的规律:

  • 可以扩展到双路(2S);
  • Platinum有4个UPI,XCC;
  • Gold有3个UPI,MCC;
  • Silver当然也是MCC,只给2个UPI。

2S性能(通用型)

成员来自Platinum和Gold,数量最多,TDP的跨度也最大,还有多达4个 + 。

2S主流(通用型)

除Platinum和Gold,还有2个UPI的Silver,以及另外的3个 + 。

液冷(通用型)

52核与32核各1款,基频(Base)与全核睿频(All Core Turbo)都力压同核数的其他SKU,当然TDP必须350瓦,不然对不起SKU后面加的那个 Q(代表Liquid Cooled)。

单路(通用型)

SKU数字以 U 结尾,UPI不需要(0),有1个6开头的XCC。

长使用寿命(IoT)通用型

SKU数字以 T 结尾,仅1款,来自Silver,10个核,2个UPI应该够用。

另一大类包括面向不同应用场景的优化型SKU,包括:

内存数据库/分析/虚拟化优化

SKU数字以 H 结尾,支持扩展到4路(4S)和8路(8S)。这个SKU池的规模仅次于2S性能(通用型),核数从最少到最多(8~60),跨度最大。

双路配置可以把所有的UPI都用于2个CPU之间互连,享有全部的带宽,以满足CPU核心数增长的需求。单纯从互连的角度,3个UPI不仅可以组4路,也可以组8路。所以这些SKU中,8开头的Platinum们有4个UPI支持8路,6开头的Gold们有3个UPI支持4路,都算尽可能兼顾拓扑规模与互连带宽的结果。

内存数据库(IMDB)、分析和虚拟化应用都需要较多的核心和较大的内存容量,英特尔一方面以更多的CPU来冲量,一方面为每个CPU开通更多的加速器。这些SKU中有3款把4种加速器(设备)都拉满,充分加速各种与数据相关的操作。

5G和网络优化

SKU数字以 N 结尾,完全符合Platinum属XCC、4个UPI,Gold属MCC、3个UPI的一般规律,但两者中都是既有双路也有单路(Platinum 8471N、Gold 6421N和5411N)。

云优化

1款IaaS型以 P 结尾,2款SaaS型以 V 结尾,这3款都属Platinum,却有2款3个UPI,1款仅支持单路(0个UPI的Platinum 8461V)。

还有1款媒体型,以 M 结尾。

存储及超融合(HCI)优化

SKU数字以 S 结尾,核数不算多,加速器比较全乎——独缺与内存关系密切的IAA。TDP控制在三代至强的水平,有另1个6开头的XCC(4个UPI)。

HPC优化

前面提到的英特尔至强Max系列,SKU数字以 9 开头,集成64GB HBM2e高带宽内存,一些不算很大的数据集可以直接在其中运行,甚至不需要安装DRAM(即不插内存条)。

核数32~56,没到60个,即每个die的核数比上限少一个,多了一个HBM内存控制器。

核数最少的Intel Xeon CPU Max 9462基频及全核睿频高,它和9460都是3个UPI。TDP均为350瓦,高性能计算行业在散热上最有经验。

5个SKU都开满了4个DSA设备,其他的外挂(die级)加速器均置0。

上一篇
下一篇