高密自智的存储系统什么样?|狒解芯机文字版

2台通用服务器的体量,

近2PB的存储容量;

不必发愁怎么管理,

它还有与身材不相符的智能;

能自愈,更治愈……

E企研究院开启高能存储月,

“狒解芯机”正式上线

狒哥邀您观赏高密、自智大数据存储平台鉴赏秀!

大家好,我是狒哥,今天给大家介绍一个很“大”的“小”朋友,关键是特省心!

有多大呢?接近两个PB(1.9+PB);有多小呢?只有4U。那,怎么省心呢?待会儿再说哈。

前一阵我们E企研究院拿到了两百块18TB的希捷银河(Exos)硬盘,总容量3.6PB。这么大的,该怎么用呢?

今天呢,还是18TB的希捷银河硬盘,我面前“只有”106块。但是,注意我说“但是”,硬盘含量更高。或者存储密度更高。

存储服务器,还是JBOD?

存储密度为什么会更高呢?上次的两百块硬盘,用在分布式的软件定义存储系统里,这种系统最常用的就是2U的存储服务器,优点是计算能力比较强——软件定义嘛,消耗的就是CPU这些计算资源,代价是CPU和主板占去了服务器内部的大部分空间,硬盘主要布置在前面板上,2U的话,只能插12个3.5寸的大盘,也就是每U高度6个硬盘——往后看您就知道了,这密度有点儿拿不出手。

当然密度只是一方面。存储服务器兼顾了计算和存储能力,通用性比较强。但是,计算和存储对服务器设计的需求侧重点不同,“硬塞”到一起,两方面的效率都不会最优。所以,大型互联网和云计算公司很早就开始采用“存算分离”的方案,就是用计算型服务器搭配JBOD,组合使用。

JBOD是Just a Bunch of Disks的简写可以理解为一个塞满了硬盘的机箱。套用手机“屏占比”的概念,JBOD设计讲究的是“盘占比”。

高密存储两大流派的变迁

大约在十年前,大型互联网公司如美国的Facebook、国内的BAT,设计的第一代JBOD,还是采用硬盘横插的方式,通过把机箱的宽度从19英寸扩大到21英寸,水平方向上能插的硬盘从4个增加到5个,1U的机架高度内可以放下15到20个硬盘,换算成4U的高度,就是60~80个硬盘。

为什么要说4U呢?因为3.5英寸硬盘的长度,比4U少那么一点点,正好可以留出来上下拔插,空间利用率比一两U的横插机箱更高。具体有多高呢?拿我面前这台希捷Exos CORVAULT来说吧,宽度不需要是定制的21英寸,只是通用的19英寸,就可以放下106块硬盘,比两个2U或者4个1U的JBOD,多三分之一以上。

何况,CORVAULT并不是一台简单的JBOD,而是一套“可自我修复的智能数据存储系统”。

Exos CORVAULT:比高密更高

也许有人要问了,JBOD和存储系统的主要区别是什么呢?可以说,JBOD是能“装”就行,存储系统还要解决这么多盘的管理和运维等问题,这就*需要具备一些本地的计算处理能力。从硬件的角度,JBOD加上包括CPU和内存在内的控制器,就可以构成一套相对简单的存储系统。

譬如眼前的CORVAULT,它的主体是4U106个盘的JBOD,我们看中间,8行12列共96个3.5英寸硬盘槽位,这边上还有10个槽位——这个小纸箱里正好有10个18TB的Exos X18硬盘,可以放在里面。

顺着这边往后看,是I/O部分的风扇模块,最后面是CORVAULT的灵魂——两个控制器模块,通过另一边的8个12G SAS扩展器连接中间的96个硬盘。这些硬盘排布非常紧密,所以后面有4个风扇模块,采用80mm的1万5千转双转子风扇,风力强劲,在前面高通风率的导风板的帮助下,迅速的带走硬盘发出的热量。风扇模块下方,是两个2000瓦的1+1冗余铂金电源模块,为整个系统供电。

从硬盘、控制器到电源和风扇,都采用支持热插拔的冗余设计,便于维护。

存储系统:“大硬盘”时代的大想法

说了半天高密度的好处,其实也有不好的地方,就是——太沉!光这106块硬盘就超过70公斤,都快赶上我的分量了。如果装到机箱里,总重量还要加倍!所以,要先上架空机箱,再插入硬盘,我需要一个搭档,有请希捷科技高级技术经理戴小勇先生。

在正式上架之前,我想代表大家问小勇一个问题:我们都知道希捷是领先的硬盘制造商,什么时候做起JBOD和存储系统来了?

戴小勇:其实从希捷的角度来讲,我们早在2014年就已经布局整个系统的业务,那其中最大的原因就是希捷在这个硬盘的开发过程中,随着硬盘的容量增长或者说密度的增长,对系统设计的要求越来越高,特别是对高密度的一个存储系统的散热、震动、噪音都有非常高的要求。另外一点,存储系统对Raid数据保护随着磁盘容量增长也带来非常大的一个挑战,特别是数据重建的时间。所以在2014年的时候希捷先后收购了几家公司,其中第一家来源于原来IBM的硬盘部门,它是一家专注在模块化机箱设计的一家公司以及一些专用的硬盘设施设备的一家公司Xyratex,所以在现有的磁盘工厂里面我们可能还会看到测试设备。

狒哥:不是可能,我在无锡的工厂看到,所以我的我当时还觉得这个公司很神奇,他又生产硬盘,还生产硬盘相关的设备,然后他又生产出来的硬盘的这个设备,这个我感觉他这一辈子这一生就是用来装硬盘的。

戴小勇:是,的确是。那另外一点的话就是我们发现这个数据重建的问题,也就是说大容量磁盘面临的一个数据重建的风险,所以紧接着在2015年收购一家公司叫Dothill,他有自己专用的数据保护技术,所以Xyratex加Dothill形成现有希捷的一个系统的产品线。

狒哥:谢谢小勇为我们解惑。现在咱俩一起,先把机箱装到机柜里,一共106块硬盘,每人一半,你先来53块,我再来53块。

小身材,何以大能量?

为什么要这样安装呢?因为双活CorVault控制器可以把这106个硬盘分成两个磁盘组,并发访问以获得高性能,达到顺序读每秒14GB、顺序写每秒12GB,以及1.7万IOPS的水平。

能输出如此高性能的CORVAULT控制器,和通用型存储服务器的主板、CPU、内存子系统比起来,占用的空间可以忽略不计,真是“小身材、大能量”。

CORVAULT控制器的能量不仅体现在读写性能,还可以简化运维。2U存储型服务器把硬盘布置在前面板上的做法,有一个优点,就是方便直接替换硬盘,而CORVAULT这样的设计,要替换硬盘,得先把沉重的机箱拉出来。但是,这里又说“但是”,CORVAULT换了一个思路,充分利用控制器的处理能力,通过名为“ADAPT数据保护技术”的分布式纠删提供快速数据重建功能。

ADAPT + ADR = 快速数据重建

纠删码,也就是Erasure Coding,简称EC,可能了解的人不太多。但是很多人应该都听说过RAID,这可以算是纠删码的一种具体实现。但是传统的RAID技术有个问题,就是颗粒度太大,硬盘出了故障要整体替换,在新的硬盘上重建所有的数据。要知道,18TB的硬盘,光是全盘顺序读或者写一遍,都要花一天左右的时间,RAID重建的速度会比这还慢好几倍。这个过程不仅耗时,也增加了整个RAID组崩溃、导致数据丢失的风险。

在希捷Corvault系统中,ADAPT(Advanced Distributed Autonomic Protection Technology,先进分布式自主保护技术)数据保护技术巧妙地利用了希捷磁盘独有的ADR(Autonomous Drive Regeneration,自动磁盘修复)功能,通过对硬盘内部存储空间离散化操作,可将故障域从整个硬盘缩小到盘片乃至扇区的级别。拿Exos X18来说,它有9张盘片,每张2TB,而硬盘的故障往往是某个盘片或对应的磁头损坏,其它部分还可以正常使用,所以只需把受故障影响的盘片重构或者磁头停用,恢复上面的数据到ADAPT的保留空间就可以了,并不需要替换硬盘本身,反而更省事。

这样一来,受到故障影响的硬盘,其可以使用的容量会有所减少,而ADAPT数据保护技术利用希捷第六代VelosCT ASIC芯片能够处理硬盘容量不一致的情况,还能快速实现数据的再平衡,这点也优于传统的RAID技术。希捷的数据显示,容量10TB的磁盘在ADAPT的保护下遇到2个硬盘故障的时候,系统恢复容错能力的时间仅需2小时。同样的条件下,传统的RAID 6则需要55小时。

CORVAUL存储系统的功能实现,与Exos硬盘的内部结构,结合的如此紧密,应该也是它全称为Exos CORVAULT的原因之一吧。

上一篇
下一篇