做业务风险的“吹哨人”,甲骨文通过MAA最佳实践保障业务连续性

疫情之下,许多企业的业务被迫按下了短暂的“暂停键”。

对大多数企业而言,在IT发生紧急或中断情况后,依然可以维持关键功能的运行是取得成功的关键。

让事件恢复如初,也是当前企业IT系统出现问题后最常用的方法。

01

让事件恢复如初,RTO、RPO很关键

如今,企业越来越多的利用信息技术(IT)来提升自己在市场上的竞争优势,IT系统的稳定、可靠直接关系到企业的业务能力,一旦系统出现故障,很可能直接导致生产力下降、收入锐减,甚至让公司声誉受损。

在过去,人们在毫无准备的情况下可能需要耗费几天甚至几周时间才能解决此类事件。而现在,企业可以通过制定灾难恢复和/或数据保护计划来提升系统的业务连续性。

要了解业务连续性,我们首选需要了解两个非常重要的参数:恢复时间目标(RTO)和恢复点目标(RPO)。所谓RTO(Recovery Time Objective),是指系统灾难发生后,IT系统从宕机到系统恢复之间的时间。RPO(Recovery Point Objective),是指系统数据能够恢复到系统发生前的哪个时间节点。

用最直白的话来说就是,RTO是说你的业务能停多久,RPO是业务数据能丢多长时间。

对于企业IT系统来说,几分钟恢复业务和几天恢复业务效果是完全不一样的。数据恢复到一天前,还是恢复到一周前,对于公司业务的影响也是不一样的。

02

健康风险全面评估,Oracle做业务风险的“吹哨人”

在2022年全球最重要的商业风险Top10中,业务中断高居第二,仅次于网络攻击所带来的影响。由于各种原因造成的业务中断带来前所未有的业务损失,越来越多公司针对业务中断的诸多原因建立恢复力,将此作为公司的一种竞争优势。

与此同时,新冠疫情的爆发给不同行业、不同规模企业的正常业务运营都带来了很大的影响。这也给IT管理者提出了更高的要求,如何保证业务的持续运营、如何在发生自然灾害等突发事件时进行及时响应,成为各个企业必须思考的问题。

近年来,业务中断事件的多发和愈加复杂的类型不仅促使企业意识到全面的业务连续性计划的重要性,也推动了业务连续性管理的标准化。

在《GB/T20988-2007:信息系统灾难恢复规范》中,提出了信息系统灾难恢复能力等级的概念,以及RTO、RPO与信息系统灾难恢复能力等级间的指导性对应关系,为各行各业制定相应的灾难恢复能力等级要求和指标体系提供了参照。

做业务风险的“吹哨人”,甲骨文通过MAA最佳实践保障业务连续性

作为企业数据存储的“心脏”,数据库在企业IT架构中承担着重要的作用,业务的正常运转离不开数据库系统的健壮运行。对于数据库而言,高可用的实现可能更为复杂,坏一个数据块也可能对业务连续性带来沉重打击,。对用户的服务可用,不仅仅是故障发生时业务能连续提供服务,还需要有数据一致性保证。

据甲骨文公司中国区技术咨询部高级总监李珈介绍,甲骨文在2021年开始为企业客户的IT系统健壮性即业务连续性进行免费的“体检”,即企业高可用性架构(MAA– Maximum Availability Architecture,下面简称为MAA)健康风险评估。MAA是甲骨文超过30年的全球客户的实践沉淀及经验教训总结出来的方法论,来解决全球最棘手的业务连续性需求,为工作负载和要求最苛刻的企业客户提供减少计划内和计划外停机时间的解决方案,同时也是面向服务水平的高可用性参考体系结构。通过对客户的架构进行全方面评估打分,甲骨文帮助这些企业客户能够提前诊断系统中的潜在问题,及时发现工作中的疏漏,并梳理出整个系统架构中需要解决的问题,客户据此可以进行高效整改,让问题解决在“发生前”。目前已经有不少客户为之受益。

在这个风险评估的工作过程中,甲骨文精心设计了一个包含八个维度的风险评估架构,从数据备份、本地高可用、数据容灾、应用容灾、容灾切换、网络配置、补丁策略以及日常维护这些对企业的业务性至关重要的维度对企业客户的业务连续性保障体系进行全面评估。故障/灾难发生的预案、流程,运维团队的切换演练、定期的生产切换等都是平滑实现业务连续性的重要组成部分。通过对每个维度技术及流程的了解与分析,发现短板,展现企业客户业务连续性的健康状况,并给出专业评估意见,从业务连续性的优化方向给出长期、短期的解决方案,从而更好保障业务连续性。

李珈表示,很多企客户的IT系统其实并没有他们想象的牢靠,例如一个采用Oracle的行业大客户,系统运维一直是第三方来运维并且有独立的备份设备,然而在实际的检测过程中,Oracle发现这个客户的备份系统已经有长达一年的时间没有正常备份数据库的数据。如果在此期间出现宕机,那么很可能就给客户带来巨大的损失。也有的客户虽然对数据库进行了很好的保护,设计了本地和异地的容灾数据库,但是并没有在异地数据库设计应用连接,甚至应用服务器层面都没有网络连通,无法实现容灾端应用接管。

为了回馈客户长期以来的支持,甲骨文正在进行业务连续性-系统高可用性架构评估服务,为客户进一步提升系统的健壮性。该评估通过各部门客户访谈的方式,包括系统运维部门、网络管理、数据中心、开发部门等,了解客户的系统架构,从业务需要达到的RTO/RPO数据到目前系统实际做到的RTO/RPO的差距,从八大维度出发,评估客户的备份策略,如是否拥有异地备份,多久备份一次,备份有效性如何验证,备份策略是否满足业务需求,补丁策略怎么去做,多数据中心的距离、网络延迟,采用的数据库容灾方式-同步还是异步等,应用与数据库的连接方式,有没有定期的切换演练和具体的演练手册,人为错误如何防范等等,在高可用架构评估过程中助力客户将存在的问题一一梳理出来,指出系统中的问题并给出专业整改建议,而这一切服务都是免费的。MAA评估也被客户美誉为系统安全的“吹哨人”,这个来形容甲骨文在帮助企业诊断和评估业务连续性风险的努力,再合适不过了。

03

融合客户实践,Oracle为业务连续性保驾护航

数十年来,Oracle不断围绕数据核心——Oracle数据库来设计和实施全面的高可用(High Availability)功能,致力于解决最棘手的业务连续性需求。只有作为系统心脏的数据库的健康运行,才能够帮助保证整个业务系统的连续性,从而帮助企业建立真正的竞争优势。

据李珈介绍,甲骨文结合多年服务客户经验设计出了一个面向整体服务的Oracle最高可用性架构(MAA)。MAA是一个Oracle最佳实践蓝图方案,它基于经过验证的Oracle成熟的高可用性技术、端到端验证、专家建议和客户体验。MAA的主要目标是以最低的成本和复杂性为Oracle客户实现最佳的高可用性、数据保护和灾难恢复。MAA由各种HA服务级别协议、配置实践和HA生命周期操作最佳实践的参考架构组成,适用于非工程系统、工程系统、非云和云部署,在今天的中国客户中尤其关键业务系统如核心银行、电信及企业应用等也有大量部署。

做业务风险的“吹哨人”,甲骨文通过MAA最佳实践保障业务连续性

MAA架构设计可为工作负载和要求最苛刻的企业客户提供减少计划内和计划外停机时间的解决方案。它支持不同配搭方式,还支持多家硬件厂商设备,无论是IBM,HPE,还是其它X86服务器或存储设备都能提供支持。主要可以实现如下4个目标:

1.数据保护:通过闪回减少数据丢失,通过零数据丢失恢复设备实现绝对数据保护

2.主动复制:通过Active Data Guard和GoldenGate等数据库复制技术,实现异地双活/多活的数据库容灾

3.横向扩展:通过RAC集群、ASM自动的分布式存储管理等技术,使计算、存储资源具备本地高可用,并且数据库能力可以横向线性扩展

4.连续可用性:通过应用程序连续性AC和全局数据服务GDS等技术,在本地集群节点间,或者本地生产和异地的远程容灾站点间,快速、透明的进行数据库服务的故障切换;可缓解计划内事件(例如软件升级、数据架构更改和修补)和计划外事件压力(如错误导致的硬件故障和软件崩溃)

如今,凭借多年的积累,高可用性架构也在多个方向取得了长足的进步。例如,Oracle Exadata 数据库云平台等集成系统利用Oracle MAA 内置提供MAA最佳实践和蓝图建议,也是今天最高效,最好的方案。对于Oracle云中的Oracle数据库服务已经集成了MAA的全方位保护。例如,Oracle云(特别是平台即服务产品)采用了Oracle在过去数十年中赖以为客户保障最高可用性的优秀标准。

04

对接业务需求,Oracle打造分级递增架构

我们知道,引起服务器故障的硬件问题往往是不可预测的,而且各种数据可用性也会经常导致计划外的宕机,进而影响到工作效率和整体业务运营情况。如需要停机(有时可能长达一天或更长时间)打补丁或进行其他计划内维护操作,数据库可用性都会受到不同程度的影响。

为了保障企业业务连续性和将对业务的影响降到最低水准,并满足不同企业客户应用场景的需求和投资最小化,甲骨文将MAA分为青铜、白银、黄金和铂金四个等级,提供不同级别的HA解决方案以满足不同的RPO和RTO要求,以响应最终用户和业务运行的不同层级的需求。

做业务风险的“吹哨人”,甲骨文通过MAA最佳实践保障业务连续性

其中,青铜级可以在生产环境提供一个本地备份,并在其它数据中心保存备份副本。当基础数据因人为错误而受损时,便可在短时间内恢复系统之前的状态,常用于开发测试环境;白银级则将RTO和RPO提升到新的水平,确保数据库能够处理底层基础设施故障和所有意外实例中断,以进一步降低数据丢失的可能,一般应用多采用此部署方式;黄金级可帮助用户实现零数据丢失和快速故障切换,即便在发生大规模中断事件后,企业业务也能够在数秒内快速恢复,关键业务系统多采用黄金级别的部署方式,尤其是金融、电信、政府及制造业等对业务连续性要求非常高的企业;铂金级则针对多数据中心双活的业务连续性要求的企业客户,能够确保多数据中心最高正常运行时间。

李珈表示:“不论是在企业客户应用场景的深入探索上,还是对数据库技术的优化升级上,甲骨文在数据库领域的创新始终坚持从客户需求出发,以用户体验为先,帮助企业客户实现业务转型目标,甚至超越他们的期望。”

我们有理由相信,Oracle高可用性架构(MAA)解决方案将有效帮助不同类型的企业应对突发事件和灾难,为企业业务连续性和数据安全保驾护航。

上一篇
下一篇