浅谈数据中心数据备份管理
作者:尤克勤等
来源:《中国金融电脑》2017年第7期
在信息系统日常运行维护工作中,不可避免地会面临数据库宕库、病毒感染、误操作、存
储损坏等情况,这些意外或者人为事件往往会导致业务系统停机或者业务数据丢失,直接影响
到数据安全以及业务连续性。当支撑公司运营的业务系统无法正常开展业务时,将给公司的声
誉和营收带来巨大的损失,影响企业生存与发展,更有甚者会触及国家和社会的稳定。
根据调研报告,过去5年内,科技、金融服务、零售和媒体行业是数据丢失最严重的领域。
94%的公司在经历了灾难性的数据丢失后无法生存,其中43%立即关门歇业,剩余的51%也会
在两年内倒闭。
为了确保公司信息系统数据安全,规避数据丢失、宕库停机后业务长时间无法恢复的风险,
对信息系统的数据进行备份是必不可少的事前保障手段之一,也是最为有效的事后恢复手段。
数据备份是在数据拷贝的基础上,对备份数据进行有效管理的一系列工作,包括备份监控、恢
复测试、介质管理等。本文将就如何做好数据中心的数据备份展开论述,所述“数据备份”指
离线保存(OffStore)的数据备份。
数据中心的运营有以下三个特点:一是信息系统数量庞大,数据中心通常集中了公司所有
的关键系统;二是操作系统种类众多,各类信息系统运行的平台不一,常见的包括UIX、
Linux、Windows等;三是数据种类丰富,除了各类常见的数据库Oracle、SQLServer、DB2等,
还包括系统文件目录、AS数据等。
因此,对于数据中心来说,数据备份不只是输入几条命令去完成数据拷贝,更需要构建一
套科学的数据备份管理体系来对数据备份工作进行有效管理。
一、备份什么数据
数据中心包含了一个公司几乎所有的信息系统,那么是不是所有的系统数据都需要备份?
要回答这个问题,不仅需要了解公司的业务,以确保重要业务系统的数据得到备份保护,还要
了解行业内政策法规以及外部审计方面对各种数据的要求。
以保险公司为例,公司的保单数据、客户数据、财务数据等都是公司经营赖以生存的最重
要的数据。此外,国家法律法规、行业规定对于某些影像扫描文件、回访录音文件也做出明文
要求。因此存储这些数据的信息系统都应该做好数据备份保护。
在判断数据重要性的同时,还应考虑数据是否可以再生,有些数据很重要,但是如果可以
再生,并且再生效率要比数据恢复还高,那就没有备份的意义了。
此外,数据中心通常采用集中、统一管理的备份系统对数据进行自动化备份,由备份系统
负责统一调度备份任务的执行,管理备份数据介质信息,提供备份执行情况的监控。在这种环
境中,我们还应该对备份系统的管理数据进行备份,即什么时候备份了什么数据、备份到哪些
介质上、保存在哪里等信息。否则,当备份系统出现问题,我们将无法恢复备份系统,也就无
法通过备份系统恢复业务系统数据了。
二、谁来做数据备份
数据备份操作及相关管理工作一般由备份对象的管理员来承担。各类管理员根据数据保护
的需求,梳理备份策略,并按照策略执行备份操作。例如操作系统备份由系统管理员执行备份;
数据库备份由数据库管理员执行备份;应用程序备份由应用管理员执行备份;各类设备配置信
息由设备管理员进行备份。管理员还需负责备份介质的管理工作,包括存放和提取。
通常情况下,数据中心都采用集中式管理的自动化备份系统,通过在各类平台上部署客户
端代理程序对各类数据库、文件目录进行自动化备份,承担了数据库管理员和应用管理员的日
常备份操作的职责。在这种环境下,增加了一个备份系统管理员的角,备份过程中相关角
的职责见表1。
1.备份部署阶段的具体流程
(1)应用管理员负责提供信息系统数据保护需求,包括RTO/RPO指标、可用备份窗口、
保留时间要求等。备份系统管理员与系统/数据库管理员根据实际情况提供相关建议。
(2)备份系统管理员根据已沟通确认的需求,结合实际资源情况,制定备份策略表,包括
备份启动时间、备份频率、备份级别等。
(3)系统/数据库管理员负责提供数据库备份脚本,以便备份系统调用。
(4)备份系统管理员根据备份策略在备份系统中部署、调试自动化备份任务。部署完成后,
应用管理员、系统/数据库管理员、备份系统管理员需要对备份数据进行恢复测试,校验备份
有效性。
2.备份日常运行阶段的具体工作
(1)备份系统管理员负责备份任务日常执行情况的监控,并将执行结果通知应用、系统/
数据库管理员。
(2)系统/数据库管理员负责处理各类备份异常问题。
(3)备份系统管理员负责备份系统的日常运维工作,包括备份软硬件的运行维护。
(4)当需要数据恢复时,由应用管理员和系统/数据库管理员商讨形成恢复方案,包括恢
复对象、恢复方式、恢复时间点等,由系统/数据库管理员执行恢复操作,备份系统管理员协
助提供各类备份数据的获取接口。
三、什么时候备份数据
数据备份过程中,会产生大量的读写操作,从而占用部分IO资源,因此通常会选择在非
业务时间或者业务不繁忙的时候进行数据备份,以避免造成影响。
同时,在系统、数据库发生重大变更前,建议进行一次数据备份,以便在变更发生问题需
要回退的时候,能够将数据恢复至变更前的状态。
四、怎么做数据备份
数据备份的意义在于当意外发生影响业务可用后,如何通过数据备份规避数据丢失,同时
保障业务连续性。
首先需要明确备份的对象,即需要备的是数据库还是文件;其次需要确认备份的频率,即
多久备份一次,备份级别是全备还是增量;然后是确定备份的时间窗口,即什么时候开始备份,
大致什么时候可以完成备份;最后则是确定备份数据的保留时间,即备份介质保存多久后可以
回收再利用。
在确认了以上几点后,我们就可以有针对性地配置相关的备份参数,进行备份。人工备份
比较简便,一般通过数据库或系统自带的命令来进行,简单的几条脚本语句就能完成相关数据
的备份,备份数据也存放于本地,适合规模较小的生产环境。但是当备份需求的规模或是数据
量达到一定程度时,对于数据备份的整体管理就有了更进一步的要求,部署简单的几个备份脚
本已远远无法满足管理的需求,这时候就需要通过专业的备份软件及备份设备来对数据备份进
行统一的管理。
企业级的备份软件可以管理备份对象信息、备份频率、备份级别、备份时间等备份相关的
各类要素,并通过各类数据库的专用备份命令,将备份数据保存至备份设备(比如带库)中,
从而对备份数据进行整体化的统筹管理。这种情况下,在正式实施备份前对于备份策略的规划
就显得尤为重要了,数据备份已不能当做个体来单独处理,而是需要站在备份系统的角度来进
行全盘考虑。
在制定备份策略时可有以下几个思路:
(1)当生产系统对数据丢失的容忍度较低,即RPO值需要尽量小时,一般可以通过提高
备份的频率来实现。例如Oracle数据库的在线备份可以适当提高归档日志的备份频率。
(2)当生产系统对恢复时间的容忍度较低,即RTO需要尽量短时,一般有两种解决方法
可以参考。一种是提高恢复的速度,比如可以通过SA网络传输备份数据来提高恢复速度;另
一种是减少需要恢复的数据量,比如可以每次备份都直接进行全备,那么在恢复时直接恢复全
备即可,而无需再进行全备加增量的恢复步骤,省去了增量数据的恢复时间。
(3)当备份数据的保留时间较长时,需要考虑到备份介质寿命,设置合适的备份保留时间,
在介质寿命到期前进行介质转储。
(4)当需要备份的时间窗口尽可能短时,我们可以选择业务的空闲时间进行备份,同时也
可以通过源端去重技术和全备结合增量备份的方法减小备份数据量,从而缩短备份时间。
(5)总之,备份策略的制定需要结合具体的情况来具体分析,针对不同的备份需求来综合
考虑,根据实际情况来制定最为合适的备份策略,最后再按照备份策略及备份软件的操作手册
来进行相应的部署实施工作。
五、如何保存数据备份
大家或许认为有了数据备份就万无一失,但在实际生产中我们也会遇到有了数据备份后,
当需要恢复时却不到相应的备份,或者到了备份却因损坏而无法恢复,此时数据备份也就
失去了数据保护的意义。为了避免这种情况的发生,我们需要妥善保存数据备份。备份数据存
放在备份介质上,在企业级环境中,备份介质通常是磁带和磁盘。围绕备份介质的管理,有以
下几点需要考虑:
(1)需要建立备份档案,记录每一次备份的时间、备份的对象、保存介质的编号,做到备
份数据与备份介质一一对应。在企业环境中,通常通过专业的备份软件,能够自动化实现备份
数据与备份介质的对应管理。
(2)需要对备份介质存放与提取进行严格的管理。由于备份介质保存着公司业务数据,涉
及公司机密,因此备份介质需要经过业务数据管理部门领导和备份管理部门领导审核后方可提
取。在备份介质提取时,备份管理员需要记录提取时间、用途、介质编号、借用人员。在备份
介质存放时,由备份管理员对备份介质检查,确保外观完好无损,然后填写存放日期、介质编
号、用途。若备份介质损坏,则需要通过备份档案出该介质所对应的备份对象,重新备份后
再存放。
(3)需要采用适合备份介质保存的环境,影响该环境的主要有温度、湿度和磁场三个方面。
当介质保存环境的温度过高时会导致介质的磁性降低,温度过低会导致介质的韧性降低,湿度
过高会导致介质发霉,而磁场过强则会导致介质的磁粉脱落,以上情况均会造成数据丢失,参
考目前的介质存放标准,备份介质的存放温度建议控制在5°C~40°C,湿度控制在
20%RH~80%RH之间,同时避免强磁场干扰。在企业环境中通常选择专业的介质柜存放备份介质,
介质柜需具有防火、防爆、防尘、防磁、防光等功能,同时安置于温湿度适合的环境中。
(4)需要根据磁带使用情况定期进行转储。通常磁带的使用寿命一般为5~10年,同时读
写次数不超过2000次,对于长期保存的磁带,需要按照磁带的使用寿命定期进行转储,防止
保存的备份数据过期失效。
六、测试备份数据
数据备份的最终目的就是在需要恢复时,能够及时有效地将数据恢复出来。如果数据备份
在关键时刻恢复不了,那么备份也就失去了其本质意义。这就需要我们在平时做好对备份数据
的恢复测试工作,而只有在平时多加演练,做好测试验证,数据备份的意义才能得到充分的体
现。
备份数据的恢复测试从原则上来说需要结合备份内容考虑到所有的恢复场景,通过在不同
场景下的恢复测试来确保实际恢复的成功率,只有做好万全准备才能做到万无一失。
从备份内容上来看,一般分为文件备份和数据库备份两种。那么与之相对应的在进行恢复
测试时,我们分为文件恢复与数据库恢复。
1.文件恢复测试
(1)恢复单个文件。
(2)恢复多个文件。
(3)恢复整个文件目录,并且与原文件目录进行比较,确认文件目录的大小、目录内的文
件数量、文件的最后更新时间等是否都相同。
(4)恢复一个文件的较老版本。
(5)模拟一个磁盘卷损坏,尝试恢复整个文件系统。
(6)模拟备份服务器损坏,尝试在此种棘手情况下的文件恢复。
如果不是使用传统的人工备份方式,而是使用开源或者商业备份软件来进行备份的话,那
么这种场景的恢复测试就非常重要,毕竟并不是所有的备份软件都会很周全地考虑这种恢复场
景。
2.数据库恢复测试
(1)模拟丢失了一个数据文件或损坏了一个磁盘,尝试进行数据库的整库恢复。
(2)对数据库进行异机的整库恢复,这样就能判断是否有遗漏未备份的文件。
(3)指定一个较早的时间点进行数据库恢复。
(4)模拟上一次的备份任务失败,然后使用更早之前的备份数据进行恢复。理论上如果保
存过所有的事务日志,那么就可以将之前的备份数据通过日志前滚将数据库恢复至最近的时间
点。
在实际的运维管理中,我们也可以按照不同的恢复目的地来进行恢复测试。例如直接在本
机进行覆盖恢复、在本机的异目录中进行恢复或是直接进行异机恢复等。此外,对于备份恢复
测试的频率也需要有一定的要求,一般情况下可按不同的恢复对象及恢复方式每月进行一次恢
复测试,但是我们都知道生产环境是一直在变化着的,而不论是硬件、网络、操作系统还是数
据库,甚至是管理方式的变化都可能会对实际恢复造成影响,这次恢复成功也不代表下次也同
样能成功,所以最理想的情况是只要相关环节发生了变化,就马上做一个针对性的恢复测试。
备份数据的恢复测试在数据备份管理中是相当重要的一环,恢复测试工作是否到位直接决
定了紧急情况下的恢复效果,我们只有在平时通过制定完善的恢复测试计划,并予以充分执行,
才能进一步确保备份数据的有效性,在关键时刻真正体现出数据备份的意义和价值。
七、数据备份的监控
在日常运维中,还需要重点关注对备份的监控。这就需要我们每天都对备份系统进行巡检,
巡检的内容主要是查看备份系统整体是否运行正常以及各备份任务是否按计划成功完成,如果
发现异常,则需要进一步查看相关的日志信息。同时也可以利用监控软件来对备份进行自动化
的监控告警,这样就能在第一时间发现异常情况并及时处理解决,从而确保备份数据的及时有
效。
从监控的对象来看可以分为两大类,一类是对备份硬件的监控,另一类是对备份软件的监
控。
对于硬件,一般通过机房实地巡检查看是否有指示灯告警,或是远程登录设备查看硬件状
态,同时结合监控软件,通过SMP的协议由设备本身将报错信息发送至监控平台后再进行告
警。主要确认各部件是否运行正常,网络是否连通等底层问题。
对于软件,同样可以登录备份软件的管理界面查看各备份域整体及每个备份任务个体的运
行情况,也可借助监控软件部署客户端抓取相关日志的关键字来进行监控告警。如果需要进一
步分析排查报错原因,则可以登录相应的客户端服务器查看相关日志。软件类的监控要确认备
份软件的进程是否正常,带库的介质磁带是否够用,备份任务是否成功完成等。
备份系统随着相关技术和方案的不断优化一直在完善,那么相应的监控手段也需要与时俱
进。对于新的硬件设备需要有针对性的监控,而新的备份技术也会带来新的监控需求,只有配
套完善了相应的监控部署,备份才能真正做到高枕无忧,有了问题能够第一时间发现、处理和
解决,这样才能在确保备份本身有效性和可靠性的前提下真正保障生产数据的安全性。
本文发布于:2022-07-28 17:43:31,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/falv/fa/82/43446.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |