快速,持续,稳定,傻瓜式
支持Mysql,Sqlserver数据同步

企业灾难恢复–付出代价以避免额外成本

在线QQ客服:1922638

专业的SQL Server、MySQL数据库同步软件

数据保护和灾难恢复(DR)是IT任务,在灾难来临之前,很少像开发一样受到关注。只有计划充分,组织才能面对意外问题。要实现适当的灾难恢复流程以及在灾难发生后恢复业务运营的能力,需要执行几个步骤。

企业灾难恢复–付出代价以避免额外成本

DevOps,持续交付和数据库生命周期管理的
文化和组织

以我的经验,灾难恢复(DR)计划几乎总是被搁置一旁,尤其是在既没有明确定义的服务水平协议又没有健全的内部获利能力跟踪的组织中。

这似乎是轻率的声明,但是实际上,尤其是在大型组织中,要在定义一致的灾难恢复策略上投资资金的价值达成共识似乎非常困难。它通常不被视为一种积极的节约成本的活动。

最初的冲突

在许多组织中,低估灾难恢复策略的价值的原因有很多。我认为最重要的原因是:

  • 企业的核心价值很容易被误解-最有价值的资产是员工及其知识以及公司的数据,以及在一致的状态下尽可能长时间地保留这两种资产的能力。
  • 该公司的决策者缺乏谨慎,他们有时无法意识到投资于防故障灾难恢复策略的价值,或者不愿给予应有的重视。
  • 企业对计算机系统的固有可靠性和弹性的错位信念。灾难的后果常常令人惊讶地难以置信。

IT与业务决策之间的差距

在灾难恢复计划存在缺陷,不完整或缺失的情况下,这通常是由于对许多大型企业中预防或从灾难中恢复所需步骤的理解上的巨大差异。“拥有”,“想要”和“需求”之间似乎缺乏协调。换句话说,很多时候有什么之间目前该公司有很大的不同,什么公司希望与什么公司真正需要的灾难恢复策略。

首先,“ 具有 ”方面通常是无证的,并且很少经过充分测试(除非公司因灾难而遭受数据丢失)。

“ 想要 ”方面主要是许多IT员工对技术的着迷所致,通常超过IT部门的预算。

“ 需求 ”方面取决于业务模型以及法律要求,供应商和客户协议对业务的监管方式。

最重要的是,灾难恢复策略必须由同等参与业务决策以及公司IT策略的人员或团队来制定和执行。

我已经看到业务部门的高管在我工作过的IT部门工作了一个月,目的是在“拥有”,“想要”和“需求”之间定义适当的黄金平衡。

在本文的“下载”部分中,您将找到一个模板,该模板将帮助您为组织业务方面的解决方案创建提案。

请记住,演示越有说服力,则DR计划中需要获得业务批准的改进空间就越大。

如何满足需求

我将主要从数据角度讨论这一点。

确定灾难后还原或恢复过程的优先级以及相互依赖性非常重要。只有正确确定顺序和优先级,才能最大程度地降低成本和时间,以恢复对业务运营的IT支持。同时恢复所有内容通常不切实际,也不可能,并且与优先考虑恢复系统中最重要的部分相比,所需的时间更长。

DR计划必须概述必须首先恢复的业务数据区域,以及这些基本系统所依赖的系统。

为了正确处理此问题,需要对数据进行系统地分类。作为示例,我在下图中说明了如何在企业中理解和分类不同类型的数据的方式:

1780-Data%20Value-a0051035-73ce-407d-838

数据分为两个维度:timeaccess

访问维表示,其中,数据被访问的图案; 这可以是服务于用户查询的多个短期运行事务,这些事务经常读取或修改数据。

时间维度表示数据是从历史的角度对待的方式,即有多少数据是日常业务运营至关重要,以及如何将数据的多少被视为用于分析历史数据-而不是定期。

每个公司/企业都有自己独特的数据访问和数据处理模式;但是,对于每个灾难恢复计划来说,对类似于上述数据的数据进行分类是必不可少的初始步骤。如前所述,非常重要的是要准备好首先还原最关键的数据,而不要同时尝试所有操作。因此,如果没有类似的数据分类,将很难决定灾难计划的方法以及恢复期间要采取的行动。

例如,如果日常业务依赖交易密集型数据的10%,其余90%仅用于分析(计费,欺诈等)目的,并且使用频率较低,则优先级应是数据的10%。

另一个示例可以是一家企业,其中日常业务在很大程度上依赖于90%的数据来进行分析和决策,而10%的事务性数据并不那么重要。

两种情况都将指示为灾难恢复选择正确技术的不同方法:灾难恢复团队具有许多不同的技术选择,可以在现有系统中建立弹性。

  • 群集是获得高可用性的好方法。但是,这是一个昂贵的解决方案:需要2个相同的服务器和一个共享存储,这需要购买额外的存储来进行备份。(将备份存储在群集磁盘上并不是一个好主意!)
  • 使用备用服务器可以便宜得多,因为它不必与生产服务器完全相同–存储可以便宜并且可以不共享。别名可用于应用程序配置,如果发生故障,别名将指向备用服务器,而无需更改应用程序配置。
  • 将数据卸载到云服务 –由于安全和性能方面的考虑,这是一个值得商de的解决方案。但是,在某些情况下,它可能被证明是最便宜的选择。

作为底线,灾难恢复计划中最重要的部分是正确地隔离数据,从而可以实施最便宜,最快的解决方案来照常恢复业务运营。

如何为灾难做准备

备灾的最佳方法是在灾难恢复解决方案中包括以下各项:

  1. 一组地图,说明网络的当前体系结构,数据流和涉及的硬件。
  2. 可以帮助解决硬件和软件问题的待命专家列表。
  3. 脚本列表,这些脚本将有助于首先还原系统中最重要的部分。这些脚本应包括性能调整查询和修改对象的查询。例如,一个显示剩余数据库文件空间和磁盘空间的PowerShell脚本,一个用于在SQL Server数据库中创建和交换分区的脚本,等等。
  4. 应用程序及其依赖性的列表。(还跟踪应首先使哪些应用程序和数据重新联机。)
  5. 还原站点周围的餐馆/商店列表–灾难恢复可能需要比预期更长的时间(实际上总是如此!),并且在完全专注于此任务时,最好不要饿又渴。
  6. 该区域的硬件供应商列表-例如,在磁盘故障运行到最近的硬件商店并购买便宜的硬盘驱动器的情况下,与等待时相比,在灾难情况下可以最大程度地减少停机时间正确的存储,无法访问数据。
  7. 提供最后时刻的区域性公司列表(以防灾难恢复计划的任何其他步骤失败的情况)。

定义灾难恢复计划后,必须定期对其进行测试,并根据经验进行完善。此外,每个团队成员应熟悉灾难情况下必须采取的步骤。

当灾难发生时-真实的例子

最重要的部分是不要惊慌。(我们在数据中心里有个大招贴,上面写着“不要恐慌!” –很有帮助。)

当灾难发生时,最重要的部分实际上是知道灾难已经发生并受到影响–是物理设备丢失(即SAN着火了)还是软件问题(即SQL Server实例由于以下原因而自行关闭)软件错误)还是逻辑上的问题(即用户实际上删除了生产数据库)?我亲眼目睹了所有这些例子。

过程的第一步是确定受灾地区和灾难的严重程度。

在这种情况下,保留可以深入了解系统操作部分的脚本非常有帮助。提供此脚本超出了此处的范围,但以下是一些有关包含内容的想法:

  • 遍历所有磁盘,安装点和已用磁盘以及可用空间的脚本。
  • ping物理服务器的脚本。
  • 立即将SQL Server日志和默认跟踪文件从服务器复制到远程位置的脚本。默认跟踪的问题在于,它在繁忙的环境中会迅速被覆盖,如果将其复制到其他位置,它可能能够提供有关谁做了什么的重要信息(-我写了一篇有关如何探索的文章)。默认跟踪-https: //www.simple-talk.com/sql/performance/the-default-trace-in-sql-server-the-power-of-performance-and-security-auditing /)。
  • 一个非常聪明的主意是准备一个脚本,该脚本将从远程计算机的故障服务器中收集性能信息。设置文件非常容易,该文件可以在执行后立即启动性能计数器收集(我前一段时间写了一篇有关Perfmon计数器收集的文章– https://www.simple-talk.com/sql/performance/collecting-performance-数据输入到sql-server-table /中)。当然,安装,配置和运行Redgate的SQL Monitor会更加有用,因为它可以帮助跟踪导致灾难的步骤。
  • 在群集环境中,可以有一个脚本来显示哪个SQL Server实例在哪个节点上运行。
  • 还可以有一个脚本,该脚本显示数据库和日志文件的当前物理文件夹位置,以及最新备份文件的位置(相信我,最好使用此脚本,因为总会有最后的惊喜) 。

当然,还有许多其他的智能脚本和通知可以在灾难期间提供帮助。

灾难发生后的下一步就是遏制灾难,以便它不会进一步扩散。

燃烧的硬盘驱动器可能是一个问题,但是如果燃烧的硬盘驱动器使整个服务器机架着火,那将是一个更大的问题。如果用户删除一个数据库是一个问题,但是如果用户删除10个以上,则是一个更大的问题,依此类推。

因此,在确定灾难原因之后,最好尽快将其隔离。

保持密码并能够访问系统非常重要。这不仅包括SQL Server,而且包括整个密码范围,甚至包括路由器等。将登录名和密码保存在安全的地方,但在发生灾难时仍然可以访问,这对于恢复操作的成功至关重要。

最后,请记住,万一发生灾难,有很多选择可以打开后门:这里有很多例子,以下是一些例子:

  • 当远程服务器异常启动时,例如,如果在计划维护后仍无法启动,则使用HP iLO之类的技术可以提供很大帮助。
  • 在您(仅)系统管理员在休假期间发生灾难时,使用远程桌面访问产品可能会很有帮助。
  • 启用DAC并将管理员登录信息保存在安全的地方是准备SQL Server灾难的好方法。有时候,SQL Server无法以任何其他方式响应,而专用管理连接可能是唯一的方式。

总之,灾难恢复计划涉及许多艰苦的工作,但请记住,能够检测到潜在的灾难并加以预防,然后再进行艰苦的工作以使系统恢复正常,这要好得多。

如今,有许多工具可以帮助进行预防性维护和主动发现问题。这样可以更轻松地为最坏的情况做好准备,然后仍然希望为最好的情况做好准备。(请记住,墨菲实际上是一个乐观主义者。)

相关推荐

咨询软件
 
QQ在线咨询
售前咨询热线
QQ1922638