脱胎换骨,不只为性能 —— 戴尔最新一代PowerEdge服务器 R7725 测试

前言:

戴尔在去年底发布了 PowerEdge 第 17 代服务器,首批产品线为 AMD 平台,支持第五代 EPYC 处理器。新一代的处理器的核心数量、性能等方面有了巨大的提升,功耗水平也达到了 500W。随着处理器的“上限”猛增,新的服务器平台首先必须能够提供匹配的功耗、散热能力支持;其次,必须能够适应更多样化的应用场景,平衡传统业务与新兴业务的需求。戴尔 PowerEdge 第 17 代服务器平台的诞生并不只是被动地跟随处理器迭代,而是为了更好地兼顾上述两种价值取向,协调性能与弹性的发展需要。

戴尔 PowerEdge R7725 是 PowerEdge 最新一代服务器家族中首批上市的 2U 双路机架式服务器,配合第五代 EPYC 处理器,可提供出色的性能密度,尤其适用于大数据分析、人工智能,以及高性能计算等负载。为了充分理解新一代 PowerEdge 服务器平台的跨代变化,我们也申请了上一代的服务器戴尔 PowerEdge R7625 作为参考平台。

处理器更新是“表”

第五代 EPYC 处理器基于 Zen 5 和 Zen 5C 架构。Zen 5 架构的 CCD 制造工艺升级到 4nm,单封装内的 CCD 数量从12个提升至16个,提供最多128核,最高频率可以达到 5GHz;Zen 5C 的 CCD 制造工艺升级到 3nm,单封装内的 CCD 数量从8个提升至12个,提供最多192核。EPYC 9005 继续使用 SP5 接口,IOD 与上一代相同,内存控制器仍为12通道内存,但速率从 4800MT/s 提升至 6000/6400MT/s;PCIe 5.0 通道仍为最多160条,CXL 支持从1.1升级至 2.0。随着处理器性能大幅提升的还有功耗,最高达到 500W。

乍看之下,为了配合 EPYC 9755 处理器的更高功耗,戴尔 PowerEdge R7725 中配置的散热器体积明显增大,热管数量更大,投影面积也更大。与以往羊角造型散热器将散热片向风扇墙方向延伸不同,戴尔  PowerEdge R7725 将散热片向内存上方展开,有效面积更大,不占用额外机箱深度。在支持更高功率处理器(360W 提升至 500W),提供更多扩展能力(如前窗 E3.S 从 32 块增加到40块、后窗 PCIe 5.0 插槽倍增到8个)的基础上,R7725的机身深度只比 R7625 增加了43毫米。

由于更大的散热器对内存槽区域有所遮挡,戴尔还很贴心地在散热器顶部贴上了标签,以示意内存槽安装方向。内存槽与散热器鳍片之间也预留了足够的高度差进行内存插拔的操作,对可维护性没有带来明显影响。

由于 EPYC 9005 和 EYPC 9004 系列处理器都使用相同的插座,内存通道数量相同,R7725 配置的是24条内存插槽,内存扩展能力与上一代平台相同,但速率大幅度提升。

架构变革为“里”

新一代服务器绝非只是提升了处理器功耗支持这么简单。其实,戴尔正在推动服务器基础架构变革,新一代 PowerEdge 服务器平台正是新思路、新标准、新架构的产物。戴尔 PowerEdge R7725 是首批遵循了 OCP 的 DC-MHS R1(Datacenter Modular Hardware System Revision 1.0)标准的服务器。戴尔也是 OCP MHS(模块化硬件系统)项目组的核心发起人之一。

传统上,服务器的主板通用性不高,服务器厂商需要为不同机型开发不同的主板,更不要说跨品牌适配了。DC-MHS 通过模块化的方式,标准化了硬件的外形规格和接口,提升了互操作性和研发效率,利于降低开发不同形态服务器、进行代际升级的成本。

在 DC-MHS中,主板概念被 HPM(Host Processor Modules,主机处理器模块)取代。基础的 HPM 负责提供处理器、内存、IO、供电接口。一款 HPM 可以适配多种机型,可以包括标准机架服务器、刀片服务器、边缘服务器等,可以是前 IO 或者后 IO 形态等,甚至有机会跨品牌使用。

为了给大家直观展现这种变化,我们以上一代戴尔 PowerEdge 服务器家族的 R7625 为例。譬如,R7625 的风扇墙接口是集成在主板上的,而 R7725 的风扇板已经解耦出来。风扇板与 HPM 分别迭代有哪些好处呢?最典型的就是 1U 和 2U 机型使用的风扇尺寸不同,对应的风扇插座位置自然需要相应的调整。还是一种典型场景就是液冷机型,目前市场份额越来越高的液冷机型正在不断提升液冷覆盖比例,从而逐步取消风扇墙,在浸没式液冷机型更是如此。戴尔可以基于 R7725 的 HPM 推出液冷机型,取消风扇板可以简化布局,还有利于降低成本和故障率。

戴尔 PowerEdge R7725 TPM 上的电源连接器符合 M-PIC(Modular-Platform Infrastructure Connectivity,模块化-平台基础设施连接)规范,可用于连接电源分配板(PDB),适应柜内直流供电的场景。符合 M-PIC 规范的电源连接器是带有边带信号的,大家可以留意图片中的那一排较小的插针,可以通过它们提供管理能力。每个电源连接器可以承受 864W 功率(每 Pin 最大 6A 电流),在 R7725 的热插拔电源接口附近有 4 个这种连接器,足够通过 HPM 为处理器、内存、PCIe 卡、SSD 等供电。

另外,R7725 的 HPM 与风扇板、前窗驱动器高速背板的连接也是采用相同的 M-PIC 规范接口连接,不但可以为风扇或驱动器提供 12V 供电,还能承担温控、测速/调速等信号。

戴尔 PowerEdge R7725 的电源模块符合 M-CRPS 规范,通用性明显提升,用户可选的电源范围大大增加了。M-CRPS 电源的尺寸小于 R7625 上使用的电源,但戴尔为 R7725 提供了最大 3200W 的钛金电源,能效更高。我们收到的 R7725 样机配备的是 1500W 钛金电源。

M-CRPS 电源宽度缩减,还带来了一些额外的好处,使得戴尔 PowerEdge R7725 后窗下半部分的扩展能力明显增强。R7725 后窗最下方一层可以安排三组 OCP NIC 外形兼容的模块,包括网卡、DC-SCM 后 IO 板,以及新一代的 BOSS-N1 DC-MHS 控制器;下方略靠中间这一层可以安排 2 组全高卡 Riser,而 R7625 在这个区域只有半高 Riser。

戴尔 PowerEdge R7725 的启动模块升级为 BOSS-N1 DC-MHS,直接支持企业级 NVMe SSD,性能较 SATA SSD 更高,可管理性也有所增强。更重要的是,新一代的启动模块的外形也与 OCP 网卡兼容,简化了后窗布局的复杂度。

性能大幅改进

我们的测试在戴尔 PowerEdge R7725 上配置 AMD EPYC 9755,参考平台 R7625 搭配 EPYC 9754。两款处理器分别对应 Zen5 和 Zen4C 内核架构,均为 128 核心。

考虑到 EPYC 9755 的全核 Boost 频率可以达到 4.1GHz,而 EPYC 9754 为 3.1GHz,频率差距达到了 1GHz,对测试结果的影响较大。为了突出处理器架构的差异,我们均关闭 Boost,二者的基础频率分别为 2.7GHz 和 2.25GHz。

系统内存均为 1.5TB DDR5 RDIMM。值得一提的是,EPYC 9005 系列在发布之初支持的内存速率是 6000MT/s,直到近期才将这个规格变更为 6400MT/s。相应的,戴尔 PowerEdge R7725 也需要更新今年 4 月发布的 1.13 版 BIOS 才能实现更高内存速率的支持。

测试平台配置

处理器 1:双路 EPYC 9755(2.7GHz/512MB L3 / 128C / 512T / 500W)

内  存 1:24×64GB DDR5 RDIMM 6400MT/s

处理器 2:双路 EPYC 9754(2.25GHz/256MB L3 / 128C / 512T / 360W)

内  存 2:24×64GB DDR5 RDIMM 4800MT/s

系  统:CentOS Stream release 10(内核 6.12.0-58.el10.x86_64)

我们首先利用 Stress-ng  v0.18.06做压力测试验证,两台服务器的 CPU 频率都稳定在各自的基准频率,均为 512 线程。

从输出结果看,EPYC 9755 单位时间内完成的操作数量相对 9754 提升了 30%以上。

内存性能

我们使用 Memory Latency Checker v3.11b 进行内存性能的测试。

EPYC 9755 的内存峰值带宽为 1071GB/s,这个内存带宽达到了双路 12 通道 6400MT/s 理论带宽(1229GB/s)的约 90%;相对 9754 实测值 701GB/s 提升了 53%。

EPYC 9755 相对 9754 的最大内存带宽提升幅度超过了两台 PowerEdge 服务器支持的内存速率差异:4800MT/s 到 6400MT/s 的提升应该是 33%。我们认为最大内存带宽受到了 CCD 与 IOD 之间的带宽影响。两颗处理器的 CCD 与 IOD 互联的 GMI(Global Memory Interconnect)链路数量差异很大:EPYC 9755 配置了 16 颗 CCD,使用了 IOD 的全部 16 组 GMI3 链路;而 EPYC 9754 使用了 8 颗 CCD,只利用了 8 组 GMI3 链路,限制了与 IOD 的内存控制器之间的传输效率。理论上 CCD 数量较少的 EPYC 可以使用 GMI3-Wide 模式,让一颗 CCD 使用两组 GMI3 链路,但 AMD 只在 4 颗或更少 CCD 的型号上启用这个模式,EPYC 9754 不在此列。

在 MLC 的本地(CPU 内)与远程(跨 CPU)访问测试中,EPYC 9755 的延迟略好于 EPYC 9754,本地内存访问带宽优势明显。跨 CPU 访问的性能受 CPU 之间互联带宽的限制。两代处理器的远程访问带宽基本相同,这符合预期。

这是因为两代 EPYC 的 IOD 并没有更新,xGMI 总线(Infinity Fabric)带宽没有出现质变。对于双路系统,AMD 允许选择 3 组或 4 组 xGMI 链路互联。选择前者可获得更多 PCIe 通道,通过将每颗 CPU 的 1 组 xGMI 链路配置为 16 通道 PCIe 5.0,从而实现双路最多 160 通道 PCIe 5.0。戴尔 PowerEdge R7725 使用全部 4 组 xGMI,可确保双路处理器发挥最佳性能。

随着负载变化,EPYC 9755 在带宽逐步提升时的访问延迟变化较为稳定,在带宽达到峰值附近时延迟只增加到 220 纳秒左右,明显优于 EPYC 9754 的表现。

在逐核递增的内存带宽测试中,我们可以从图中很清晰地看到 Zen5 和 Zen4C 两种不同定位的 CCD 的规模差异。EPYC 9755 每个台阶对应 8 核,与 Zen5 架构每 CCD 内提供 8 个核心吻合。EPYC 9754 则为每 CCD 16 核心。

浮点单元改善尤其显著

Zen5 的微架构相对 Zen4 有全面的提升。Zen 5 的前端提供更高的并行性,分支预测器速度更快、更准确,并为之匹配了更大的分支目标缓存。执行单元部分,整数运算的 ALU(算术逻辑单元)与 AGU(地址生成单元)、浮点运算流水线均增加了三分之一或更多。缓存方面,Zen5 的 L1 缓存容量增加了 50%,L2 缓存的带宽翻倍。

Zen5 在浮点和向量单元的规模方面改进尤其显著。譬如 Zen4 架构采用 256 位数据路径,需要两个周期执行 AVX-512 指令。而 Zen5 引入了 512 位数据路径,可以在一个周期内完成操作。我们会在浮点运算密集型的测试中感受到这种巨大的差异。

科学计算

Linkpack 测试常用于考察双精度(FP64)浮点计算求解。我们使用 AMD 优化的软件包 AMD Zen HPL(The High-Performance Linpack Benchmark),软件版本为 2024_10_08。在 HPL 中,(基于 EPYC 9755 的)PowerEdge R7725 可以获得近 9000GFlops 的成绩,是(基于 9754 的)R7625 的两倍以上,充分体现了浮点并行能力的改进。即使考虑两款 CPU 的频率差异,折算 EPYC 9755 同频率下的性能也是 EPYC 9754 的 1.85 倍。

我们在有限元软件 OpenFOAM v2412 运行 MotorBike 算例模拟摩托车周围流场。R7725的执行时间(Execution Time)不到 90 秒,比 R7625 节省 30%。与总时间(Clock Time)的差值也更小,说明在 IO、内存访问等环节也有所改善。

3D 渲染

我们用 V-Ray Benchmark v6.00.00 考察 CPU 的 3D 渲染性能。PowerEdge R7725 可以获得超过 31 万分,相对 R7625 提升近 50%。

结语

新一代的 x86 服务器处理器将功耗提升到了 500W 的水平,性能也取得明显的代际提升。戴尔 PowerEdge 最新一代的服务器很好地体现了新一代服务器平台的特点:更高的性能、更强的扩展能力,以及面向未来的架构设计。

除了处理器性能,戴尔 PowerEdge R7725 在许多细节上体现了“面向未来”:小如多达 40 块 E3.S SSD 的扩展能力、基于 NVMe 的启动盘,大到率先引入 DC-MHS 标准。作为全球领先的服务器厂商,戴尔的服务器产品需要覆盖多样化的场景,除了相对传统的通用机架服务器,还有边缘侧、整机柜等形态,需要格外重视组件的灵活性、泛用性,这也是戴尔牵头发起 DC-MHS 的关键原因。尤其是在 AI、HPC 等超高性能应用占比越来越高的背景下,服务器的传统形态出现了分化。熟悉液冷、GPU 服务器、整机柜服务器等概念的用户,在看到戴尔 PowerEdge R7725 的时候,对其代表的新架构、新标准会有更多的共鸣。

上一篇
下一篇