你的机柜不是你的机柜

2022年11月9日~10日,第十届数据中心标准峰会在北京隆重召开,峰会以“汇聚双碳科技 夯实数据之基”为主题,益企研究院创始人、CDCC数据中心专家技术组专家委员张广彬老师在本次峰会上以《你的机柜不是你的机柜》为题发表演讲,现将精彩内容整理如下,供数据中心广大从业者学习交流。

大家好,到这个时间也想让大家轻松一下,起了这么一个标题,我不是卖机柜的。益企研究院是致力于云计算基础设施和数据中心技术研究的机构。我这个标题需要断句,套用某著名的广告语:“你的机柜。不,是你的机柜。”主要用意是从机柜到底“归谁管”切入,还有另外一种断法,用在后面有一页的标题上了。

像刚才说的,我们研究的领域从云计算的基础设施——IaaS层往下——一直到服务器、芯片、数据中心的基础设施,也包括机柜本身。

从2018年开始发起数字中国万里行,这里列出实地考察50多个超大规模数据中心,并不是从2018年开始的,是差不多这十年来的粗略估计。我们在2018年出了《2018中国超大规模云数据中心考察报告》,同时还出了英文版,也在国外有一定的传播。2018年主要是讲了超大规模数据中心的基础设施状况,2019年,我们和CDCC合作增加了金融数据中心的考察,我自己除了撰稿以外,也承担了数据中心的航拍。

回到机柜的话题,通常说的“标准机柜”有一些标准参数如19英寸,单位高度(Unit)1.75英寸=44.45毫米,再加上PDU之类配件。大部分数据中心,可以认为机柜就是基础设施团队,也就是风火水电、场地的部分,与IT业务部门的分界线。数据中心基础设施的人通常不会关注机柜里面的东西,比如说服务器这类产品;IT业务层面的人也很少关注机柜以外的东西。但至少在一种情况下必须把机柜、服务器和IT设备做一个整体考虑,就是我们俗称的整机柜服务器。

整机柜服务器虽然现在也有一些金融行业的客户,姑且称之为先行者,他们也会采购一些基于工业标准x86服务器的整机柜服务器,像银行用的大机、高端存储不在讨论范围之内。通用服务器组成的整机柜,主要还是互联网和云计算公司采用的比较多,因为IT基础设施投资在整个成本里占比是非常大的,它们有非常大规模的基础设施,比如说阿里、腾讯、字节,服务器保有量都是百万台量级,在这么一个规模下把服务器和机柜作为整体设计进行优化,哪怕只减少个1%都可以节省很大一笔钱。

以Google为例,1999年夏天得到了2500万美金的投资,其中接近10%用于定制了21个机柜的服务器,每个机柜加上服务器不到11万美金,用二手CPU、二手主板和台式机的硬盘攒起来,把服务器保有量扩充了15倍,在之后打败竞争对手过程中发挥了非常重要的作用,如果不是用这种俗称“软木板服务器”的方式实现,恐怕这2500万美金全投进去也买不了这么多服务器。一共是21套机柜1680台“服务器”,我自己见到的就有美国国家计算机博物馆和Google硅谷园区各摆了一台,左边这图是我在Google硅谷园区看到的。中间是Google的第1000个机柜,外号叫冰箱,看起来整洁很多。我们可以看到,从原来的手工作坊到工厂预制化,在大型互联网公司如百度、Google、Facebook也就是Meta牵头的整机柜生态,如右图就是Facebook的Open Rack。原来比较清晰的边界打破了,一些整机柜项目已经从定制化走向标准化。这里就不一一分析了。

我们举一个例子,比如整机柜服务器可以整合供电,不用PDU了,或者很少用PDU,只起转接不起配电的作用,把电给到电源箱,电源箱到铜排(busbar)上配电,原来在服务器里的电源(PSU,供电单元)集中到电源箱里,成为机柜的一个组成部分。比如一个机柜30台服务器,每台服务器两个电源就是60个,但是如果把电源集成到机柜上,就用不到10个电源,而且从1+1的冗余变成N+1的冗余,原来30个处于准浪费的状态,现在大大减少浪费,只提供必要的冗余就可以了;电源的数量少了,每个电源的功率比较大,负载也会比较高。而在电源负载比较高的时候,转换效率是比较好的。

其实风扇也是一样,有些整机柜,像这个框图,是BAT发起的天蝎整机柜,一个机柜不到30个风扇,但是如果这些风扇都像之前那样分散在每台服务器内部的话,可能要有一两百个。风扇数量减少,加大尺寸的风扇能耗也很好。风扇墙并不是很普遍,如果这些节点是异构的,或者节点之间的负载不同,可能有局部的热点,这个风扇墙的架构不能很好的处理。

我们可以看Google在机柜的尝试上走在前面,尤其是率先做了自己的专用的AI处理器TPU,之后机柜的样子都是很放飞自我的。最左边的1.0的机柜,下围棋AlphaGo打败李世石就是这个机器,机柜的侧面还贴着一个围棋的棋盘,看机柜的比例,如果照片没有变形的话也跟我们常见的标准机柜不一样。这是2.0的机柜,还有3.0的机柜,这八个机柜差不多10米多,每个机柜差不多1.2米宽,Google在非标的机柜上走的比较靠前。

最左边是前几年优步部署的800mm机柜,主要是机柜的框比较宽,把这个交换机竖着放在服务器的两边,前出线、网卡在前面——很多互联网公司都是这样。中间这个闪着灯的服务器是天蝎,百度叫北极整机柜,外宽600mm,内宽21英寸,机柜的两边非常薄,优点是服务器从19寸变成21寸,内部可以放更多内存或者其他元器件,也是前出线。一个问题是服务器太宽了以后,里面装的东西又很多,中间下垂的形变很严重,大家可以看一下这里两个上下层的节点快叠在一起了。右边是Open Rack v3(ORv3)的服务器,因为它主要是Google和Facebook推动,Google的版本外宽28英寸,内宽都比600mm要宽,有深款和短款。

很多服务器会配滑轨,安装好了机柜上来回抽拉很丝滑,用L型托架替换的好处是便宜。这是数据中心已经装好L型托架的样子,上一页也说到了,既然服务器的中间会形变,形变比较严重的情况下,上下两个设备挨在一起拽不出来,那就可以加大上下节点的间隔。除了标准的RU以外,像Open Rack有一个OpenU,简称OU,比RU增加3个多毫米。Scorpio(天蝎)有一个SU,也比RU多2个毫米。这两个没有统一,但是都有兼容标准U的考虑,像Google也有兼容19英寸服务器的一个选项,这里没有放出来。实际上我们可以看到现在新的Open Rack在不同的位置留出了OU跟RU的滑轨安装孔,可以兼容标准U的设备和OpenU设备。

在集中供电的整机柜,通常会有电源框和锂离子电池,就是分布式备电。连接电源框给服务器配电的就是竖着的铜排,这是Open Rack的,分成三个供电区,一共三根分九节,慢慢减少到一根铜排,到了v3版本可以电源框纵向固定在铜排上的任意U位,这个很重要,增强了灵活性。Google把铜排的位置放在机柜左后方,国内的天蝎也是放在左后方。电源框安装位置可变,与铜排的位置(左中右)不同,还是有很大区别的。

有人提到了盲板的重要性,这关系到服务器冷热通道的隔离。现在通用服务器内部可以分成三个区域,前面是硬盘区可以放硬盘或者SSD,中间是CPU和内存区,后面是I/O扩展区,可以安装GPU和网卡,上一位嘉宾讲到400G的网卡,功耗也是很高的。把这些东西塞在一台服务器里面,我们看到很多服务器深度达到了800~850mm,甚至还有更深的。这带来了气流的加温问题,前面冷通道,后面热通道。大家知道CPU跟GPU都是发热大户,当然会互相影响,气流经过CPU加热,后面就很难上大功率的GPU,譬如不能放训练卡,只能放推理卡。如果放了大功率的GPU,CPU就不要太强。

风扇位于硬盘区,就是存储区和CPU区之间。这带来一个什么问题呢?我们知道硬盘本身发热量不算大,但是体积大,会有很大程度的挡风,如果前面板有硬盘加上背板,只能通过其中的开孔和缝隙把风吸进来,而且硬盘和SSD还会对气流有小小的加温。现在的CPU功耗越来越高,马上AMD就发布新一代的CPU,单个CPU功耗400瓦,本来英特尔也要在这个月发布的,延期到明年1月份了,差不多也是300~400W,而且两个CPU各8个内存通道,32个内存槽,马上就支持12个通道。CPU和内存功率增加了,散热能力增强以后需要更大的风量,风冷服务器有什么办法呢?可能就要把风扇的转速提高,但是风扇转速太高了,它发出的噪音不仅会影响人,也会影响硬盘的性能,硬盘性能会骤降到可能只有原来的四分之一,而且进来的风很少。像有些通用服务器在硬盘背板的后面,风扇的前面,给服务器上盖开一些孔从从上方进风,如果没有放盲板,尤其后面没有放盲板,有可能把后面热通道的风吸入服务器,热风进来了,会降低散热的效率,甚至危及到CPU的正常使用。

我们可以看到有些互联网和云计算公司,采用存算分离的架构,像腾讯云的计算机型,前面就那么空着,不放硬盘/SSD和背板,没有给CPU和内存挡风,也就没有这个互相干扰了。有些定制服务器的CPU功率没有那么大,但是把风扇放到最后面,像风扇墙也是把风扇放在最后面,这些都可以减少对硬盘的干扰。我们可以看到很多时候数据中心、机柜和服务器之间的联系,比我们惯常的分工更紧密。

我们也可以看到,在风冷机房里面越来越多从几年前的以封闭冷通道为主、地板下送风,转变为封闭热通道、弥漫式送风。左边是封闭冷通道、地板下送风的机房,冷通道宽1.2米,右边是我们今年考察过的阿里巴巴仁和数据中心的风冷机房,,封闭热通道,冷通道尽头是进风口,可以看到冷通道很宽,差不多有2.4米,而且服务器就是前出线。转成封闭热通道,以后就可以适当提高冷通道送风温度,有助于降低数据中心的PUE。因为人平常所在的机房空间就是相对没有封闭的那个通道,比如27、28度,25、26度还是很舒适的,如果送风温度是27、28度,热通道35度以上,还用封闭冷通道的方案,呆在机房里是非常难受的。这也是与机柜相关的变化。

制约整机柜服务器发展的最大限制就是服务器功耗的提升,我们可以看到2018年我们考察的两个数据中心,这个是百度的数据中心,一个机柜上有35台1U双CPU服务器,但是8.8kW的供电也够。右边是一个7.2kW的机柜, 只能放4台2U的GPU服务器,每台差不多2kW。这两个机柜供电能力并没有多大的差别,但是GPU服务器机柜的空间利用率立马下来了。另外,如果供电能力上来了,制冷上不来怎么办呢?

首先我承认液冷服务器的普及需要时间,因为国内大部分的数据中心,哪怕是现在新建的有很多也没有从一开始就为液冷做设计,我认为这个还需要时间,但是现在行业内确实需要先做好准备。我们可以看到,液冷天然就适合整机柜交付,而且它本身也带有这个特点。原来风冷的情况下,数据中心只要提供到机柜(包括PDU)就可以了,因为风已经由机房提供了,本来很多东西都是天经地义的,但是现在你用传统的思路,譬如说水不能进机房,水不能进机柜,怎么办?必须得打破次元壁。像刚才说的就适合工厂预制和整柜交付,因为分水管这些设备都要布置在机柜上,包括冷却液肯定是在工厂里面去灌装、测试更好,比在数据中心现场完成要高效太多了,这个效率差异比风冷服务器时还要大。看一下采用冷板式液冷的Open Rack,铜排在中间,,两边是进水管和出水管,如果可以后面放一个水冷门,因为我们是风液混合的架构,你的服务器用了液冷,芯片的CPU和GPU用了液冷,其它的部件还要用风怎么办?还要装一套空调吗?没有必要,可以用水冷后门来冷却流经服务器的热风,这个水冷后门就放在后面共用一套进出水管。

再看浸没式液冷,左边这种机柜也跟传统机柜是一样的,立式的,这是曙光在2019年德国召开的超算大会上展出的浸没式液冷机柜。很不幸的是在展出这个机柜以后,曙光就上了美国的实体清单了。这个机柜是有间接的原因,因为这套系统的功率非常高,是三个柜子,中间是CDU,左右两个机柜各168kW,三个机柜均摊每个机柜也是100kW以上,使用相变(两相)的浸没式液冷,冷却液蒸发可以带走更多的热量,能够支撑这样的功率密度。但是液体会到处流,如果不加封闭的话,所以是刀片式的结构,每个分流在刀片里面,这样就能够做到立式安装。这么大的功率对供电的要求也很高,这个铜排不是常见的48V,是380V高压直流的铜排。

右边是阿里巴巴在仁和的浸没式液冷的机房,官方照片。它不是把服务器放在立式的Rack里面,是放在卧式的Tank里面,相当于把机柜放躺下,所以高度就低了很多,整个机柜加上下面的高度不超过1.2米,也便于维护,如果机柜很高也没法维护。这样显得它的机房空间非常非常高,尤其是一层原本规划作为设备间,比正常的机房层高还要高。如果是专门为浸没式液冷,为放置Tank优化的机房,那么正常办公使用的写字楼的层高就够了,因为上面也不需要留很高的回风空间。

另外需要提一下就是它们两个用的都是氟化液,氟化液的比重比较高,基本上常见的氟化液一般密度都在1.6~1.8之间,接近水的两倍,你看立式的机柜里面是比水重将近一倍的液体,其它都是金属,对承重要求很高。如果大家家里有过鱼缸的肯定体会更深。卧式的Tank里虽然也是类似的液体,但是由于躺下来了,单位面积的承重要求没有那么高。

整机柜集中供电的关键元件铜排也要考虑液冷。像阿里、腾讯之前很少采用整机柜集中供电的架构,因为铜排就这一根,有可能成为单点故障点,虽然它上面没有什么电气元件,就是一个导电设备,但是如果在供电功率很大的时候,有故障或者有短路,会迅速升温,导致铜排失效,可能整柜的服务器全都断电了,在云服务商的场景下失效域未免过大。我们可以看到像阿里早期的浸没式液冷机柜,还没有采用集中的供电方式,如左边图每一个节点都是两个电源,两个PSU。但是在上周阿里召开的云栖大会上宣布,新的架构会把这些PSU都集中起来,由大量的PSU变成一个机柜只有四个,如果我没记错的话,Tank的下方是铜排,浸泡在冷却液里面,有很好的散热条件。

百度也有浸没式液冷的方案,相当于把天蝎整机柜放倒了,电源框在中间,铜排在下面。这种情况下便于维护,另外铜排浸没放到Tank最底层,它有冷却液保护不大容易急剧的升温,而且在做好监控以后一旦有比较显著的温升可以及时处理,这样可以很大程度上化解单点问题。

冷板式液冷的机柜怎么办呢?如果上冷板式液冷,因为可能是液七风三,风冷的部分要求降低到30%,铜排放在机柜的最后方,铜排获得的冷量很可能是不够的,同时铜排上面承载的电量又很高,如果机柜的供电是60kW@48V,铜排1200A,很容易过热,所以我们也可以看到在上个月召开的OCP 2022全球峰会上,TE展示了液冷铜排的设计,在铜排里面挖个孔,冷却液进去再出来,其实跟冷板式液冷的原理一样。这些都是跟机柜相关的设计,我在这里的分享主要是给大家讲一讲非标定制化机柜和一些会影响到机柜的服务器设计,值得关注的进展。

我的分享就到这里,谢谢大家。

上一篇
下一篇