东方超算云方案

背景

随着智能计算时代的到来,超级计算正在与人工智能、大数据融合发展,尤其是使用成本的不断下降,其应用领域也从具有国家战略意义的科学计算领域向更广泛的国民经济主战场快速扩张,如人工智能、深度学习、生物医药、基因工程、动漫渲染、过程控制、数据挖掘、金融分析、公共服务等领域。

在超级计算大众化进程中,超级计算运行模式逐渐向云计算方向演进。北京东方超算科技有限公司( 以下简称“东方超算” ) 推出的东方超算云通过软硬一体全栈式运营服务平台加速行业创新,以云服务方式提供通用超算资源,为拓展科学边界、推进技术创新提供了更强劲的动力,满足科学计算、工程计算等领域的巨量计算需求。

东方超算云内蒙古超级大脑数据中心

内蒙古超级大脑数据中心位于国家“东数西算”工程中设立的内蒙古枢纽和林格尔新区,基于英特尔部署软硬件一体化的超算云资源,为公共服务、工业和学术提供高性能计算、大数据和人工智能服务,目前孵化10 项以上SaaS 服务,正在运行的有工业设计仿真协同一体化云、智能材料研发云、对地观测科学数据云、高时效高精度区域天气数值预报平台、碳核算平台等。

东方超算云内蒙古超级大脑数据中心在设计标准方面符合国家高能效、低碳要求,拥有360 个18KW 高密度机柜。结合内蒙古全年充沛的自然冷源,在数据中心制冷方面采取了新一代氟泵自然冷节能技术,从而为大幅度降低数据中心整体PUE 值发挥了重要作用。

目前,内蒙古超级大脑拥有服务器 4000 台,20PB 分布式并行存储容量,作为通用计算平台和存储平台,可为行业应用和数据提供高性能计算、高性能数据分析和人工智能计算的融合计算技术支撑。

超级大脑引入基于英特尔开放平台规范的计算平台

东方超算致力于全球先进的超级计算机研发、制造和运营。当数据中心技术架构变得更加精细,基于不同应用环境,东方超算通过定制化满足超级计算用户需求,随着 CPU 核心数量增加、新技术(DDR5、PCIe 5.0)的应用,要满足不同行业客户多样化需求,产品研发成为挑战:研发成本提高,该 规 范 是 由 OCSP 开 放 通 用 服 务 器 社 区 (OCSPCommunity)发布的开放优化且持续更新的服务器规范,东方超算联合英特尔、闻泰科技定制开发的通用服务器平台具备以下特质:

1、标准化、模块化设计带来高度灵活性。 服务器中的存储、散热、主板、电源、IO 扩展等部分都是模块化的,并且各个子系统都尽量实现了标准化和解耦。成员单位可以根据用户的各个部件互不兼容导致重复投入。

为此,东方超算选择基于英特尔 OCSP 规范的服务器,联合英特尔、闻泰科技共同开发,并经过测试和验证后在东方超算云平台中率先应用。

实际需要灵活地调整各个模块,具有高度的灵活性。以东方超算的实际应用为例,作为高性能运算节点, 服务器可以采用无盘配置。因此,在符合英特尔相关规范服务器基础上,可以将存储模块简化,如配置简化的硬盘笼子、取消背板。调整后, 既降低了成本,又可以增加进风量。

再如,IO 扩展部分,超级计算节点可以选择高性能 InfiniBand网卡(互联)和普通以太网卡(管理)的组合。

2、面向未来的高度定制化。目前东方超算的通用服务器基于英特尔® 至强® 可扩展处理器打造,拥有强劲的性能。已经上市的第三代英特尔® 至强® 可扩展处理器Ice Lake-SP 支持最高主频3.6GHz、1.5MB L3 缓存,单CPU 最高拥有40 个内核及80 线程、最大支持CPU 间3 组11.2 GT/s UPI 互连链路,使服务器拥有强劲处理性能。同时支持32 根DDR4 3200 ECCRDIMM 内存,可提供优异的计算速度、高可用性及最多4TB
的内存容量。

第三代英特尔® 至强® 可扩展处理器TDP 最大为270 瓦,目前东方超算引入的符合OCSP 规范的服务器已经配置支持300 瓦以上功耗的供电、风扇模组。对于即将进入的市场的第四代英特尔® 至强® 可扩展处理器平台,东方超算与闻泰科技通过更换下一代平台主板即可支持。甚至,可以进一步定制更高功率的供电系统、为全高全长加速卡(4 块)提供定制化的后窗等。对于液冷需求,OCSP 在后窗扩展接口配置中已经预留了液冷进出口管道位置。通过一系列针对性的定制,可以帮助东方超算将服务器的性能提升到新的高度。

3、快速研发,降本增效,提升企业投资收益。由于遵循了开放的机箱、电源、主板、硬盘、风扇和I/O 扩展模块的解耦标准,在各个模块内部保留定制化空间。这明显简化了服务器的开发工作。基于标准化机箱和主板模型,主要部件都不需要单独开模。譬如散热子系统支持60mm 和80mm 直径风扇, 深度可以兼容38、56mm,并考虑了额外配置蜂窝板(降噪) 的需求。再如,对于多数应用场景,Riser 及支架,甚至后窗都可以复用。除了硬件结构,通过参考在散热子系统、背板
SMBus、CPLD 与BMC 的接口/ 寄存器定义等方面的指导性建议,可以明显地降低了用户的二次开发负担,降低开发成本, 技术团队可以专注于洞察和响应用户的个性化需求。通过降低成本、增加附加值,企业投资收益可以获得有效提升。

4、助力低碳环保,满足绿色智能需求。在“双碳”背景下,客户对于算力提出高质量需求,低碳与可持续发展成为高价值数据中心的重要参考指标。OCSP 规范服务器在设计之初即考虑

了当前及未来几代处理器平台的需求,为存储、散热、IO 扩展等规划了充足的扩展能力,并尽量实现可复用。在服务器的生命周期内,扩展弹性和高复用性可以降低零部件损耗,减少产品的碳足迹。

在高速计算的应用领域,尤其银行证券结算业务、芯片设计与仿真、有限元分析与计算、图形计算与渲染、其他高负载计算应用中,在保证计算平台的稳定性的同时满足IT 计算设备的散热,提升服务器的使用效率和稳定性。

东方超算本次联合闻泰定制的服务器,面向大型数据中心部署,提供开放的管理平台,全面覆盖RedFish、IPMI、 SNMP 等多种管理协议;提供关键部件监控与运行状态上报功能,实现产品全生命周期的智能运维服务;高效的智能调速设计可根据实时的环温及负载,在不影响服务器负载性能的前提下节省整机功耗,满足绿色节能业务需求。

用户案例

目前,基于 OCSP 规范的服务器平台开始承担部分东方超算云计算节点,东方超算云面向科学计算、工业设计仿真协同、生态环境、智能材料研发、精准医学等多个行业云平台,提供应用和数据的订阅式云服务,推动以超算科技为核心的生态产业协同发展。

东方超算云也落地于诸多数字城市建设中,以呼和浩特市生态文明建设为目标,东方超算云助力打造了美丽呼市智慧决策平台,作为呼市自然资源与生态环境智慧化管理决策系统, 设立城市数据中心,通过分层建设,达到平台能力及应用的可成长、可扩充,创造面向未来的数字系统框架。

总结

基于东方超算云的实践和检验,未来,东方超算将继续基于 OCSP 规范研发和交付各行各业高度定制、绿色高效软硬一体化高性能计算解决方案,将算力与场景协同,落地不同行业应用,为拓展科学边界、推进技术创新提供了更强劲的动力。

关于东方超算

北京东方超算科技有限公司( 简称东方超算“ChinaHPC”) 成立于 2013 年,是全球先进的超级计算机研发、制造和运营商,将大数据、人工智能和超级计算应用融合一体,面向政府、行业和学术领域提供先进的超级计算机和一流的服务支持。

关于闻泰科技

闻泰科技是全球领先的集研发设计和生产制造于一体的基础半导体、光学、产品集成企业,主要为全球客户提供半导体功率器件、模拟芯片的研发设计、晶圆制造和封装测试;光学模组的研发制造;手机、平板、笔电、服务器、IoT、汽车电子等终端产品研发制造服务。

闻泰科技服务器,专注于服务器和存储等数据中心产品的研发、生产、销售与服务。闻泰服务器产品线涵盖云计算数据中心、边缘计算、人工智能、金融与运营商等领域应用,产品类型包括:通用服务器、AI 服务器、边缘计算服务器等。

关于英特尔

英特尔(NASDAQ: INTC)作为行业引领者,创造改变世界的技术,推动全球进步并让生活丰富多彩。在摩尔定律的启迪下,我们不断致力于推进半导体设计与制造,帮助我们的客户应对最重大的挑战。通过将智能融入云、网络、边缘和各种计算设备,我们释放数据潜能,助力商业和社会变得更美好。

实际性能受使用情况、配置和其他因素的差异影响。更多信息请见www.Intel.com/PerformanceIndex
性能测试结果基于配置信息中显示的日期进行测试,且可能并未反映所有公开可用的安全更新。详情请参阅配置信息披露。没有任何产品或组件是绝对安全的。具体成本和结果可能不同。
英特尔技术可能需要启用硬件、软件或激活服务。

英特尔未做出任何明示和默示的保证,包括但不限于,关于适销性、适合特定目的及不侵权的默示保证,以及在履约过程、交易过程或贸易惯例中引起的任何保证。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。

© 英特尔公司版权所有。英特尔、英特尔标识以及其他英特尔商标是英特尔公司或其子公司在美国和 / 或其他国家的商标。

上一篇
下一篇