八路服务器大优势登顶!解读SPEC CPU世界记录

今年夏天的时候,我们就留意到SPEC CPU 2017排行榜的榜首出现了中国企业的身影——浪潮信息TS860G7在2023年5月的测试中,SPECrate2017 int base得分为3700,SPECrate2017 fp base得分为3650,相对于第二名的领先优势还有点儿大,大致有200分的样子。

最近我下载了SPEC CPU 2017的数据库,进一步发现,其实SPEC有浪潮信息TS860G7的更高分数,其中8月23日发布的成绩中,SPECrate2017 int base得分进一步增加到3940!这个提升幅度相当的夸张。另外,其他品牌类似的机型,这项得分最接近的成绩是3590。

为什么是SPEC CPU?

刚才提到SPEC的测试成绩时,名字实在有点儿长。其中,int、fp显然是整数和浮点的区别,但base和peak又是什么情况?在其他场合可能还有人见过SPECspeed、SPECjbb、SPECviewperf之类的,虽然知道是让大家比较数字大小,但到底是什么意思?在这里,我们简单聊一聊SPEC——它值得。

SPEC是一个全球性的、权威的第三方应用性能测试组织,它旨在确立、修改以及认定一系列服务器应用性能评估的标准。由于它体现了软、硬件平台的性能和成本指标,一直被金融、电信、证券等关键行业用户作为IT系统选型时的权威指标。

SPEC组织始建于1988年,当时是由几个计算机设备供应商为了开发和支持大范围的计算机系统的性能测试程序而成立的。发展至今,SPEC在22个国家和地区拥有125个成员,推出了二十多个基准测试,涵盖计算性能和能源效率的高度多样化方面,已成为全球计算研究人员、供应商、用户和分析师的标杆。专业人员依靠 SPEC 来确保市场有一套公平和有用的指标来区分计算系统。

SPEC组织提供的相关性能基准在计算机领域被广泛认可,根据不同领域,有若干小组,如OSG、HPG、GWPG、ISG等。其中,OSG(Open Systems Group)专注运行开放式操作系统环境的系统、工作站和服务器的基准测试,主要套件是SPEC CPU,其最新版本是SPEC CPU 2017,早期版本还包括2006、2000、(19)95、92和89。可以说,这是业内历史最为悠久的基准测试之一。

SPEC CPU 2017专注于计算密集型性能,包括23个浮点(fp)密集型和20个整数(int)密集型的基准测试。其中,SPECspeed2017是运行单组测试的时间,SPECrate是在单位时间内运行指定数量的测试(即吞吐量)。测试结果还分为base和peak,前者要求各测试模块都以指定的设置和顺序进行编译,后者允许每个测试使用不同的编译器选项(即允许单项独立优化)。一般来说,考虑到通用性,用户更倾向于关注base的成绩,这也是SPEC网站进行排名时的默认数值。

上表就是SPEC CPU 2017的各个测试结果,基本上就是整数/浮点、speed/rate、base/peak的组合。

SPEC CPU 2017模拟了包括公共交通车辆调度、仿真分析、人工智能搜索引擎优化和视频压缩等10个典型应用场景,共有43个基准测试的业务负载,全面体现服务器软硬件的性能和质量指标。由于采用了真实的测试用例,测试结果和实际运行结果非常接近,成为客户选型的重要指标用户们根据自己的应用特点关注相应的成绩即可,譬如,对于大型数据库、商业智能等应用,主要参考SPECrate2017 int base的成绩,其中包括十个测试,涵盖编译器、路线规划、蒙特卡洛数搜索、数据压缩等。需要做高精度模拟、有限元分析、电磁模拟等的,那就关注浮点(fp)相关的成绩。★

新记录是如何实现的?

在SPEC多次提交成绩的浪潮信息TS860G7,其软硬件配置信息在SPEC成绩官网中可以查阅。其中硬件配置为:

CPU:8路Intel Xeon Platinum 8490H(基本频率1.9GHz,睿频3.5GHz)

Cache:L1: 32 KB I + 48 KB D /核心e

L2:2 MB I+D /核心

L3:112.5 MB I+D /芯片

内存:2 TB (64×32 GB 2Rx4 PC5-4800B-R)

存储:3.2 TB NVMe SSD

目前SPEC CPU 2017排名前列的几台单机都基于相同的方案:8路Xeon,顶配8490H。内存容量有一定差别,但都是用了64条RDIMM DDR5 4800,每通道一条内存,频率跑满。

看似基本相当的配置,为何成绩相差会超过300分之多?! 

这就主要体现服务器的处理器、内存、散热、主板设计、BIOS优化及测试调优等全方位的系统能力了。我总结了一下,主要是四方面:功耗墙、温度墙、信号质量、固件设计。CPU的频率其实是动态变化的,这些约束条件对CPU性能发挥有直接的影响。

功耗墙:对于这一代Xeon(Sapphire Rapids),单CPU瞬时功耗可达900W以上,厂商是否愿意为900W等级的功耗做优化,决定了能否满足峰值功耗需求、从而在峰值性能中表现出差距。为了满足严苛的供电需求,浪潮信息重新设计电源方案,且搭配了可乘载高电流Power Busbar,降低了电源层的等效电阻并可应付突然增加的负载,让系统可以满足八路同时运转时的电源需求稳定运行。

温度墙:CPU运行中会产生大量热量,如果温度过高,CPU将降频以降低发热量,以避免发生故障甚至损坏。针对高功耗产生的热量,控制箱内温度的种种手段,也会在峰值性能中表现出差距。包括高效能的散热器,高流量的风扇,低损耗的器件,以及反复迭代优化的低风阻设计等,可以提升包括CPU在内的整机器件的散热能力,确保系统可以发挥最大计算性能。TS860G7还支持4种调控模式包括:均衡模式、低噪音模式、高性能模式、自定义模式,可依用户想要的场景智能调节风扇转速。

信号质量:双路服务器的主板只有一块,四路服务器也有机会通过削减DIMM数量而只使用一块主板,但八路服务器需要使用多块主板(CPU板)并通过UPI高速总线互联。多节点的互联信号质量、速率提出了更高的挑战。TS860G7设计优秀的主板器件布局及线缆走线方式,采用高质量的连接器和连接线缆,进一步通过模拟仿真技术实现SI链路路径最优,并基于低损耗连接设计,保障SI信号稳定性,从而将8颗处理器,4块主板计算资源充分整合和发挥最大性能;再通过IO balance设计,实现8颗CPU资源合理分配,保障各部件能够发挥最佳性能。

固件设计:服务器固件是加载在计算机硬件系统上的最基本的软件代码,其中BIOS是在操作系统之下的底层运行程序,用来设置硬件。主板的上电,CPU、内存初始化,硬件扫描等过程,以及功耗、温度、散热等策略的配置,均通过BIOS来实现。作为直接接触到硬件的代码,固件代码设计和优化将直接影响到硬件最大性能的发挥。基于优秀的固件设计,固件选项设置的进一步优化,进而使服务器达到极限性能。

可以说,在以上各方面的综合努力之下,浪潮信息TS860G7连续刷新SPEC CPU的性能记录,不仅仅代表着性能优势,更代表着“状态”保持的更好,意味着系统整体更为强壮、稳健,可以承受更繁重、更密集的负荷。

八路系统有何用?

多年来,我们已经习惯了通过Scale Out方式来获得无法达到的计算和存储能力,其中双路服务器性价比最高,常用大量双路服务器来组成集群。相对而言,多路服务器的存在感也就不那么强了。

标准服务器可以人多力量大不假,但集群内部协同的内耗始终难以避免,譬如节点间的网络带宽、内存一致性等,都是明显的瓶颈。同时,节点数量越多,并行运算的工作包越细,其中的通讯(协议)损耗越大。原则上,集群内的节点越强、节点越少,整体效率越高。另外,在大规模高密度计算中,通常也存在“胖节点”的概念,主要处理一些难以并行处理的任务。简而言之,节点的“胖”与“瘦”在本质上是一个性能、成本的平衡问题。对于金融、交通、能源为代表的行业,数据量巨大、对响应速度、安全性的要求严苛,更喜欢使用八路服务器构建横向扩展集群。

八路服务器在内存容量方面的先天优势,还可以在内存数据库方面大显身手,代表性的应用就是SAP HANA。内存数据库将数据存储在主内存中,其他的存储介质,如SSD、硬盘等存储设备,只是打辅助的角色,用来控制成本。而传统数据库是将数据存储在SSD和硬盘中,然后搬到内存中进行处理。考虑到内存和SSD访问速度的巨大落差,两种截然相反思路的数据库之间也就有着两到三个数量级的性能差异。浪潮信息TS860G7拥有128条内存槽,多个配置通过了SAP HANA认证,包括16TB内存数据库的认证——这个单机内存容量是双路服务器短期内还难以企及的。

上一篇
下一篇