重复数据删除技术在备份中的应用体会

简介:
 
  2007 年底,熊猫电子集团选择 EMC Avamar 重复数据删除技术,建成了同行业中领先的数据备份系统。目前,这一技术已经在熊猫电子成功应用近一年了。在此介绍我们的应用经验,希望可以给国内同行提供有益的启示。

数据对熊猫集团的意义

南京熊猫电子集团创始于1936年,是一家具有70多年历史的国有综合性大型电子信息企业。1996年,熊猫集团控股的南京熊猫电子股份有限公司分别在香港联交所和上海证交所上市,成为国内电子行业第一家拥有H股的上市公司。南京熊猫电子集团下设家用电器产业集团、机电仪产业集团、通信产业集团、信息产业集团、新产业集团、电子制造产业集团等多家子公司,建有4个国家级工程技术研究中心、3个省级工程技术研究中心、4个市级工程技术研究中心、国家第一批博士后工作站公司主要产品和服务包括:卫星通信设备、移动通信设备、短波通信设备、彩电、个人数码娱乐产品、电子制造、仪器仪表、大生产装备、软件服务、系统集成等。公司还参股多家合资企业,包括南京爱立信熊猫通信有限公司、北京索爱普天移动通信有限公司、南京泰雷兹熊猫交通系统有限公司、南京LG熊猫电器有限公司、瀚宇彩欣(南京)科技有限公司等。

南京熊猫电子集团对各个子公司实行集团化管理,在集团总部部属了财务、Web网站、人力资源、OACRM等多套集团信息化系统,对子公司的业务运营进行集中支持和管控。信息系统对集团的正常运转非常关键。

信息中心作为信息系统的责任部门,最担心的就是数据丢失。系统故障总是可以恢复的,只不过是时间问题,换一台设备、重建系统也相对容易。数据丢失的风险则要大得多,信息中心的责任重大。

集团的数据量越来越大,对信息系统的依赖性越来越高。为了确保业务连续性和数据安全性,2007年底,熊猫集团开始建设新一代的数据备份系统,目标是提高数据保护的级别,实现更高标准的RTO(恢复时间目标)和RPO(恢复点目标)。

原有备份方案的挑战

熊猫电子集团需要保护的核心数据较大,主要是数据库数据和文件服务器,未来预计有快速的增长。此前的保护措施是备份至本地磁带库,备份策略为周五晚全备份加平时每天的增量备份。

熊猫电子集团的信息系统晚上一般不需要处理业务。所以每天下班后利用晚上时间备份,虽然一次全备份的时间较长,但备份窗口还够用。

不过,人无远虑,必有近忧。我们主要有两点担心:一是之前的磁带备份除了恢复时间长以外,还有一大缺点就是可靠性不够高。南京地区梅雨季节比较长,磁带受潮容易发霉。本以为数据都已经备份到磁带上,结果磁带读不出数据,那就麻烦了。二是如前面所说,整个集团的数据都在这个信息中心。如果遇到火灾、台风这类影响到整个机房的灾害,后果会很严重。所以信息中心决定做一个异地备份,多一道保障。显然,每天将备份磁带转运到异地保存是不可行的。即使不考虑每天转运的人力物力花费,也会因为费事而难以坚持。而且,即使坚持转运了也不是很可靠。

看好重复数据删除技术

熊猫电子考虑在相距5公里的地方建一个数据容灾备份系统,两地间连接的是商用IP网络,其带宽为2Mb/s。由于带宽小,可以通过的数据量非常有限,因此需要一套先进的方案,有效降低对带宽的要求,同时又能可靠地进行备份。

经过多方考察,我们发现,重复数据删除技术是一个比较理想的方案。备份数据的重复率是非常高的。例如,办公自动化系统中,文件流转、版本修订比较普遍,一个文件可能抄送给多个人,一个文件可能有多个版本,这其中有大量的重复数据。尤其是文件比较大的时候,备份时重复的存储空间占用相当可观。重复数据删除技术就能解决这个问题。所有重复的数据,系统在备份时只保留一份,在重复出现的地方,只保存一个数据地址。恢复数据时,数据能够自动还原。这正是熊猫电子需要的技术。

EMC Avamar是业界最优秀的重复数据删除技术之一,它是一种源端的全局重复数据删除技术。其特点是,在数据源开始处感知应用,能够针对具体应用数据(例如,Oracle数据库、SQL Server数据库、Word文档、PPT文档、电话录音、流媒体等等)的特点,实现最大限度的重复数据删除,删除率高达300:1甚至更高。例如,公司一个介绍性的PPT文档,今天张总接待使用,会保存一个署名张总和相应日期的版本;明天陈总出访演示,会保存一个署名陈总和相应日期的版本。两个文件只有一页不同,其它内容都一样。EMC Avamar能做到,第二次备份时,只保存改过的那一页。

新型备份方案性能出色

熊猫电子在中心机房搭建一台备份服务器,部署EMC Avamar技术。备份数据经过EMC Avamar去除重复以后,再通过IP网络传输到容灾备份中心,备份到这里的Avamar Data Store存储阵列上。在熊猫电子的应用环境上,Avamar的重复删除率达到100:1。由于传输的数据量非常小,大大节省了带宽,缩短了备份时间,也节约了备份空间。原来每天要备份好几小时,现在每天只要几十分钟就完成了。综合比较下来,采用EMC Avamar新一代备份方案,比传统的备份方式代价低得多,RTORPO却提高了很多。

Avamar数据保护方案简化了数据恢复操作。与传统解决方案不同,Avamar备份每天都是生成的完全备份,而不是传统备份方式的“全备份+增量备份”,Avamar只需操作一次就可以恢复所需要的时间点数据。Avamar对文件的恢复很简单,既可以使用传统的恢复操作,也可以通过Web页面的下载方式进行。

由于数据是备份到存储阵列的,存储阵列上有RAID冗余磁盘技术,可以随时、自动对数据进行校验,可靠性提高。从数据恢复速度看,磁盘备份比磁带备份的速度高一个数量级,数据可用性的提高不言而喻。

为了充分利用已有投资,多提供一重数据保护,除了用Avamar进行异地备份外,熊猫电子将之前的本地磁带库备份继续保留。

未来的计划

EMC Avamar的扩展性不错。将来熊猫电子的其它分支机构或厂区如果需要备份数据时,只要和Avamar的服务器建立网络连接,就可以将数据备份至Avamar上。如果需要加强数据的保护级别,可以再增加一个节点,和现有节点之间做数据镜像。如果未来的数据增长非常快,则可增加多个Avamar节点组成EMC专利的RAIN结构,既增加了备份空间,又使数据的保护更加可靠。

我们的经验是,对新技术要既大胆又谨慎。谨慎的是注重投资回报,大胆的是敢吃螃蟹。我们是国内较早采用IPS(入侵防御系统)技术的,应用效果不错,熊猫电子的供应商都来取经。采用重复数据删除技术也是国内领先的。

下一步,我们的计划是,采用VMware虚拟化技术,搭建一台高配置的服务器,把各个应用服务器都备份成虚拟机,放在这台服务器上。这样,当某个应用服务器出问题时,可以先用虚拟机工作,并马上通过虚拟机恢复系统。数据和系统都有备份,而且可以实时恢复,进一步提高系统的可用性。

  作者:熊猫电子集团信息中心/张宏宇、陆洋
来源:51CTO
目录
相关文章
【SQL开发实战技巧】系列(七):从有重复数据前提下如何比较出两个表中的差异数据及对应条数聊起
本篇文章讲解的主要内容是:***如果有重复数据如何检查出两个表中的差异数据及对应条数、表连接做聚合容易出现重复计算的错误、多表查询空值处理问题、NOT IN的子查询范围不能是空值,否则查询结果为空。***
【SQL开发实战技巧】系列(七):从有重复数据前提下如何比较出两个表中的差异数据及对应条数聊起
|
存储 运维 关系型数据库
十年难得一遇!从数据误删到全量恢复的惊险记录
线上的数据库服务我们有完善的备份策略和恢复预案,数据即使被误删除了也是能够恢复的,误删除的数据量恢复只是时间问题。但各位同学自己部署的测试环境或者是在自己电脑中的开发环境的数据库就没有同级别的资源保障了。如果恰好你又把一些不能丢失的数据放到了这种环境中,那么建议要做定期备份,有备才能无患。