报告连载 | 多元算力:CPU + GPU

最近,业界首个以算网融合为核心的多元算力研究报告《算力经济时代·2023新型算力中心调研报告》出版,我们将对报告内容开启连载模式。

结合算力经济时代的算力基础设施发展,第二章主要探讨了以下话题:

☞ 多元算力:CPU + GPU

☞ 摩尔谢幕,Chiplet 当道

☞ Chiplet 与芯片布局

☞ Arm 新升:NVIDIA Grace 与 AmpereOne

☞ 网格架构的两类 Chiplet

超级计算(SuperComputing,SC),即人们常说的超算或者高性能计算(High Performance Computing,HPC),被誉为计算机界“皇冠上的明珠”,合称ABC的人工智能(Artificial Intelligence,AI)、大数据(Bigdata) 和云计算(Cloud computing)都受益于超算领域的探索。

超算系统追求完成(特定)任务所需的算力和效率,为其构建的数据中心(超算中心)通常规模不是很大但具有很高的密度。从数据中心建设的角度,我们可以把云计算中心视为超算中心在通用算力方向上的大规模或超大规模版本,而智算中心与超算中心相比也有以(算力) 精度换规模的成分。

ChatGPT 的爆火让智算中心的热度再次走高,GPU更是成为大厂们争抢的对象。GPU 不仅是智算中心的灵魂,在超算领域的应用也越来越普遍。在2023 年 5 月下旬公布的最新一届TOP500 榜单中:

• 使用加速器或协处理器的系统从上一届的179套增加到185套,其中150套使用了英伟达(NVIDIA) 的Volta(如 V100) 或 Ampere(如A100)GPU;

• 榜单前10 名中有 7 套使用了GPU,前5名中也只有第二名没有借力GPU。

MareNostrum5 的介绍有很多值得关注的信息,譬如65千瓦和100千瓦的单柜功率,以及冷板式液冷(DLC)和液冷后门

当然,CPU 依然不可或缺,仍以榜单前 10 名为例,AMC EPYC 家族处理器占了4套,英特尔至强家族处理器和IBM的POWER9 各占2套,Arm 也有1套(富士通A64FX)且高居第二。

通用算力与智能算力相辅相成,可以适应多变的算力需求。以欧洲高性能计算联合事业(EuroHPC JU)正在部署的 MareNostrum 5 为例:基于第四代英特尔至强可扩展处理器的通用算力计划于2023年6月开放服务,基于NVIDIA Grace CPU 的“下一代”通用算力,以及第四代英特尔至强可扩展处理器与 NVIDIA Hopper GPU(如H100) 组成的加速算力,也将于2023年下半年投入使用。

GPU:大芯片与小芯片

英伟达在GPU市场上占据统治地位,不过AMD和英特尔也并未放弃。仍以最新的TOP500 榜单前10名为例,4套基于AMC EPYC 家族处理器的系统中,搭配 AMD Instinct MI250X 与 NVIDIA A100 的各有2套,前者的排名还靠前,分居第一、三位。

NVIDIA Hooper 架 构 的H100 GPU 核心区(die)

但是英伟达GPU在AI应用上的优势就要显著得多,GTC2022上发布的 NVIDIA H100 Tensor Core GPU 进一步巩固了其领先地位。H100 GPU 基于英伟达 Hopper 架构,采用台积电(TSMC)N4 制程,具 有多达 800 亿晶体管,算、存、连全方位提升:

☞ 132个SM(Streaming Multiprocessor,流式多处理器)、第4 代Tensor Core,每时钟周期性能翻倍;

☞ 比前代更大的 50MB L2 缓存与升级到 HBM3 的显存,组成新的内存子系统;

☞ 第 4 代 NVLink,总带宽达900GB/s,支持NVLink网络,PCIe也升级到 5.0。

英特尔也终于在 2023 年 1 月,与第四代英特尔至强可扩展处理器和英特尔至强 CPU Max 系列一起,推出了代号 Ponte Vecchio 的英特尔数据中心 GPU Max 系列。英特尔数据中心 GPU Max 系列利用英 特尔的 Foveros 和 EMIB 技术构建,在单个产品上整合 47 个小芯片,集成超过 1000 亿个晶体管,具有多达408MB 的 L2 缓存和 128GB 的HBM2e 显存,充分体现了 Chiplet 的理念。

CPU:性能核与能效核

作为通用算力的代表,面对不同应用场景的需求,也渐呈多元化的趋势。先后在手机、PC(含笔记本电脑) 等终端产品中得到验证的“大小核”架构,也开始在服务器 CPU 市场形成潮流。当然,服务器的特点是“集群”作战,并不(迫切)需要在同一款 CPU 内部实现大小核搭配,主流厂商正在用全是大核(突出单核性能,偏重纵向扩展) 或小核(注重核数密度,偏重横向扩展)的CPU去满足不同的客户需求。

作为big.LITTLE 技术的发明者,Arm 把异构核的理念带入服务器CPU市场, 也已经有年头了。Arm的Neoverse 平台分为三大系列:

★ Neoverse V 系列用于打造高性能 CPU,为追求高性能的计算和内存密集型应用程序的系统提供尽可能高的每核心性能。主要面向高性能计算 (HPC) 、人工智能 / 机器学习(AI/ML)加速等工作负载。

★ Neoverse N 系列关注横向扩展性能,提供经过优化的平衡的 CPU 设计,以提供理想的每瓦性能。其主要面向横向扩展云、企业网络、智能网卡 /DPU 和定制 ASIC 加速器、5G 基础设施以及电源和空间受限的边缘场景。

★ Neoverse E 系列期望以最小的功耗支持高数据吞吐量,面向网络数据平面处理器、低功耗网关的5G部署。

Arm Neoverse 三大系列核心架构

如果把应用场景限定在规模较大的云计算中心和智算中心、超算中心,相对侧重单核(纵向扩展,Scale-up) 的系列,与侧重多核(横向扩展,Scale-out)的N系列,完全可以视为大小核架构在数据中心市场的实践。

目前,比较有代表性的 V 系产品包括 64 核的AWS Graviton3(推测 V1) 和 72 核的 NVIDIA Grace CPU(V2),N系产品除了128 核的阿里云倚天710(推测 N2) ,还在DPU中获得了较为广泛的应用。

2023 年5月中发布的 AmpereOne 采用 Ampere Computing 公司的自研(A1) 核,从其最多192个核心来看,更接近Neoverse N系的风格。

英特尔在面向投资者的会议上也公布了类似的规划:

☞ 定于2023年第四季度推出的第五代英特尔至强可扩展处理器 (代号 Emerald Rapids),和预计2024 年推出、代号 Granite Rapids 的更新一代产品,将延续目前的性能核(Performance- Core,P-Core)路线;

☞ 预计2024 年上半年推出、代号 Sierra Forest 的 CPU,将是第一代能效核(Efficient-core,E-Core)至强处理器,具有144个核心。

第五代英特尔至强可扩展处理器与第四代共平台,易于迁移,而Granite Rapids 和 Sierra Forest 都将采用 Intel 3 制程。

P-Core 与 E-Core 的组合已经在英特尔的客户端 CPU 上得到检验,两者之间一个很大的区别是有无超线程。E-Core 每核心只有一个线程且注重能效,适合追求更高(物理)核密度的云原生应用。

AMD 的策略大同小异。2022年11月 AMD 发布代号 Genoa(热那 亚)的第四代EPYC 处理器,具有多达96个5nm 的 Zen 4 核心;在 2023年年中,AMD 将推出代号 Bergamo 的“云原生”处理器,据传有多达 128 个核心,通过缩小核心及缓存来提供更高的核心密度。

性能核与能效核这两条路线之间存在着(物理)核心数量的差异,但各自增加核心数则是共识。CPU 核心数量的持续增长要求更高的内存带宽,仅仅从DDR4 升级到 DDR5 是不够的,AMD 第四代 EPYC 处理器(Genoa) 已经把每CPU的 DDR 通道数量从 8 条扩充至 12条,Ampere Computing 也有类似的规划。

100 多核的 CPU 已经超出了一些企业用户的实际需求,每CPU的12条内存通道,在双路配置下也给服务器主板设计提出了新的挑战。在多种因素作用下,单路服务器在数据中心市场的份额是否会迎来比较显著的增长?让我们拭目以待。

△ AMD第四代 EPYC处理器拥有12个DDR5内存通道,但单路(2DPC) 和双路(1DPC) 配置都不超过24个内存槽,比8内存通道 CPU 的双路配置(32 个内存槽)还要少。换言之,单 CPU 的内存通 道数增加了,双路配置的内存槽数反而减少了

上一篇
下一篇