业务连续性/灾难恢复 (BC/DR)

于安全 2022年9月21日

Business Continuity/Disaster Recovery (BC/DR)

愚蠢的死亡方式

每个人都记得为了让人们认真对待火车安全而设计的极具感染力的广告活动。我们在保护数据方面也看到了类似的主题：一点预先的计划和一点意识相结合，可以避免让自己陷入数据灾难的困境。大多数数据灾难都是可以避免或预防的，只需要稍微思考、计划和执行。

Gartner 的结论是，业务停机每分钟可能给公司造成超过 5600 美元的损失，这意味着每小时可能损失高达 340,000 美元（或更多），因此预先计划至关重要。MinIO 的方法是，您的业务应该 24x7 运行，任何良好的 BC/DR 策略的重点都应该是最大程度地减少停机时间，无论中断的来源是什么，以及最大程度地减少数据丢失，无论危机的性质是什么。继续阅读以了解原因。

数据作为主要业务资产

您的业务依赖于数据。它是主要资产；您利用它来开展业务的根本，因此保护它，并花时间思考其弹性，是您盈利能力的基础。思考数据保护涉及将连续性和恢复视为同一计划的不同方面。

业务连续性 (BC) 处理运营方面。它涉及设计和创建策略和流程，以确保在灾难期间和之后基本业务功能和流程可用。
灾难恢复 (DR) 主要侧重于 IT 方面。它定义了组织的 IT 资产将如何从自然或人为灾难中恢复。此阶段内的流程可能包括服务器和网络恢复、复制备份数据以及预配备份系统。

停机成本就是您的信誉

在讨论灾难及其恢复时，仅仅基于数字通常很难让人接受。这很不幸，因为停机造成的第一损失就是您作为企业的信誉。必须明确一点，备份/复制的成本永远不会高于由于 BC/DR 计划不完善而导致的业务损失成本。

如上所述，MinIO 的方法是最小化停机时间。它从擦除编码开始，以保护数据免受任何类型的丢失或损坏。然后，专注于复制可以创造比简单备份更强大的 BC/DR 位置——您的停机时间就是将负载均衡器指向复制数据的所需时间。这种基于软件的方法意味着您的恢复时间目标 (RTO) 可以减少到最小的可能时间增量，而不是整个恢复和验证过程，假设它在第一次尝试时就能恢复正常。

RTO 与 RPO：灾难恢复计划是不够的

确定您企业特定的灾难响应目标和可接受的恢复是一个应该定期与一系列利益相关者一起进行的练习，就像安全风险承受能力一样，因为它是该实践的一个方面。每个企业的停机时间和成本承受能力都不同。这就是为什么恢复级别目标 (RLO) 是您的基本指标，并通过了解恢复时间目标 (RTO) 和恢复点目标 (RPO) 来增强。

恢复点目标 (RPO) 涉及数据完整性；它是您恢复的数据的正确性和正常运行程度。这通常是您运行备份的频率与数据在这些时间增量内变化量的函数。
恢复时间目标 (RTO) 涉及数据恢复；它是您发生故障与恢复之间的时间量。或者换句话说，RTO 是评估在事件发生后检索和恢复数据需要多长时间。

不同的企业在两个维度上都有不同的承受能力。例如，Slack 宕机扰乱了全世界的企业，并且对任何停机时间几乎没有容忍度，但小型企业网站宕机可能对停机时间的容忍度更高。

在考虑您的存储选择如何影响这些指标时，您需要考虑以下因素

如果在快照之间发生故障，会丢失多少数据，以及这种损失是否可以接受？如果不能接受任何数据丢失，那么复制绝对是您这种情况的正确选择。
如果您的企业存储了超过 1TB 的数据，恢复这些数据需要多长时间，以及这个时间是否可以接受？或者每分钟的停机时间都在损害您企业的信誉？

如果您的企业可以接受数据丢失和停机，那么备份是可以接受的选择。但是，如果数据丢失和停机听起来像是存在问题的，那么业务连续性就是您最大的价值指标，复制绝对是您这种情况的正确选择。

复制 = 正常运行时间

备份是默认的、最低限度的，通常被认为是“满足”BC/DR 的要求。但是，问题在于很少测试备份，因此您永远不会真正知道，**真正知道**，您能多快将它们恢复在线——如果您可以将它们恢复在线的话。

在复制和备份之间，复制是更好的选择，因为复制永远不会牺牲数据可用性。两种部署始终处于活动状态，始终准备就绪，并且相同。它确实需要更多的硬件空间，但这即使在纯备份情况下也是必要的，因为您仍然需要空间来测试您的备份。而且您总是在需要之前测试您的备份，对吧？**对吧**？

备份策略的局限性

总有一些比备份的状态和稳健性更需要关注的关键问题，因此您最终会在为时已晚无法补救之前才意识到策略的局限性。

即使是被动的复制副本也比任何数据量都更好。使用复制，您的停机时间就是将负载均衡器重定向所需的时间。否则，您的停机时间就是恢复和验证的时间……并且假设它在第一次尝试时就能恢复正常。

大多数企业拥有越来越多的数据需要得到处理并包含在其正在运行的任何 BC/DR 解决方案中。重要的是，您需要测试您的备份并确保能够在可接受的 RTO 内将它们恢复到完全正常运行的生产环境中。但请注意，如果您仍然是一家运行在 TB 级数据范围内的小型企业，那么备份相对较快，而 PB 级数据可能需要很长时间才能恢复、测试和验证，这会在灾难与完全恢复正常运行时间之间增加周期。此外，在大型、区域分散的企业中，推出解决方案的后勤工作变得更加复杂，从而进一步影响您的 RTO。

MinIO 有一位客户之前遭受了勒索软件攻击（阅读更多关于MinIO 如何防止勒索软件的信息）。他们痛苦地发现，恢复正常需要数月时间。想想看，**数月**。仅仅是安全部门发出“一切安全”的指令以开始恢复就花费了数周时间。

客户不得不重新考虑从优先考虑站点到在其策略中构建复制的一切。

简单地说，您越需要数据来运行，您假设拥有的数据就越多，如果仅使用备份模型，从灾难中恢复所需的时间就越长，而复制模型（处于活动/活动状态）则可以让您立即恢复并运行。

只需复制

MinIO 的方法是，无论发生什么，您的业务都应该 24x7 运行，并且最小的停机时间 (RTO) 和最小的损失 (RPO) 至关重要。确保这一点的方法是通过复制，理想情况下，因为无论您是以活动模式还是被动模式使用它，您不仅在灾难发生时需要它，还需要它来测试您的备份能力。

可以这样理解

您不会在生产环境中进行测试，因为关闭您的主要业务根本不是一件可以做的事情。
您无论如何都需要一个复制的环境来进行测试——实际上，到此为止就可以了。
如果您想更进一步并进行冷备份，您仍然需要对其进行测试，这需要与您的复制相同的硬件，这意味着备份和复制对组织的成本相同，但结果却不同。

因此，无论哪种方式，只要硬件到位，您就可以通过 MinIO 实现一个满足所有合规性、监管和 BC/DR 需求的备份策略。

连续性 > 恢复

灾后造成问题的关键因素之一是，业务连续性和灾难恢复（BC/DR）并未被视为主要的预算考虑事项。将最低成本选项（即硬盘介质上的静态备份）视为足够的情况非常普遍。但这忽略了恢复计划中一个重要的环节——当您未经测试的备份失败，或者恢复时间超出预期或超出业务可承受范围时会发生什么？

持续性始终优于恢复，并且由于对象存储已成为主要存储，因此在您的环境中建立包含复制作为标准 BC/DR 解决方案的拓扑结构变得非常简单，更不用说前瞻性和以弹性为先了。

灾难发生后制定和设计恢复策略总是比灾难发生前困难，但如果没有灾难的诱发事件，说服决策者重视其重要性可能很困难。我们希望这篇博文能为您提供一些工具，帮助您更强有力地论证重新思考和实施解决方案的必要性，以便在需求出现之前就做好准备。