读数据维护:作业负载的可恢复性08去重技能(下)
1. 方针去重技能
1.1. 方针去重(也叫方针端的去重)体系是在接到备份之后删去其间重复数据的去重体系
1.2. 一般在某个设备里边运转,该设备是一切备份的方针设备,因而,这样的去重体系叫作方针去重体系
-
1.2.1. 一般经过NFS或SMB与备份软件相连,但是也能够作为VTL(Virtual Tape Library,虚拟磁带柜)来衔接
-
1.2.2. 备份服务器还能够经过某种专门的协议跟方针去重设备通讯,这样更安全、更高效
1.3. 方针去重体系在最近20年变得适当盛行
-
1.3.1. 只要求担任备份的人稍作装备。你只需求换掉磁带柜,接上新的方针去重体系并将其设为备份方针
-
1.3.2. 并非一切的方针去重体系都由一台(不了解去重作业的)备份服务器与一台担任去重的设备构成
-
1.3.3. 运转在备份服务器或介质服务器里的某些备份软件,也能够履行方针端的去重作业
1.4. 方针去重体系一般还能够把备份仿制到同品牌的另一个方针去重体系上,这样咱们无须触摸磁带就能具有现场备份与离场备份
-
1.4.1. 乐意选用一种混合的计划,也便是用方针去重体系做现场备份,用磁带做离场备份
-
1.4.2. 先运用方针去重体系做备份,然后用备份体系把这些备份仿制到磁带柜,以创立离场的副本
-
1.4.3. 数据流以足够快的速度发给磁带机,那么它们就能够运作得适当高效
-
1.4.3.1. 方针去重体系关于磁带体系来说适当于一个巨大的缓存库
-
1.4.3.2. 把方针去重体系里的备份仿制到磁带上时,磁带机能够全速运转,因而功率会很高
-
1.5. 当场去重
-
1.5.1. 选用当场去重(inline deduplication,也叫在线去重/即时去重),那么去重体系会先运用CPU对内存中的数据去重,然后再将其写入磁盘
-
1.5.2. 假如去重设备做的是当场去重,那就不必把现已断定为重复的那些数据,再写入磁盘之中,因而能够节约一些I/O操作
-
1.5.3. 为了在接纳备份数据的一同对其去重,你有必要给去重设备装置强壮的CPU,不然就会导致该设备无法将它所接纳到的备份数据及时去重,然后拖慢作业进度
-
1.5.4. 假如你想让去重进程尽量与备份进程一同完毕(而不乐意先写入备份,然后再去重),想让去重体系能够把刚写入磁盘的备份赶快仿制到其他地方,那么就应该考虑当场去重
1.6. 后置去重
-
1.6.1. 选用后置去重(post-process deduplication,也叫后去重/后处理去重),那么去重体系会先把数据写入磁盘,然后再去重,这种去重方法又称为异步去重(asynchronous deduplication)
-
1.6.1.1. 假如用的是后置去重,那么在把备份写入磁盘之后,还有必要履行其他一些操作才行
-
1.6.1.2. 假如去重设备做的是后置去重,那有必要先把收到的数据写入暂存区(landing zone)
-
-
1.6.2. 去重方法在处理已写入磁盘的备份时仍然能够接纳外界传入的备份,但它并不会直接(或许说当场)给那些备份去重,而是要等它们也像前者相同写入磁盘之后,再做去重
-
1.6.3. 去重方法是异步的,而不是同步的
-
1.6.4. 让去重流程从其间读取备份,并去除其间的重复内容,然后将其作为已去重的备份,写入保存制品备份数据的那个区域
-
1.6.5. 暂存区的第二个用处:假如你需求把这个备份里的数据康复或仿制出来,那么速度会比选用当场去重技能所写入的那种备份要快,因为后者有必要对去重之后的备份做reduplicate,也便是将其间现已去除的重复数据补回来,只要这样,才干从备份里康复或仿制数据,这个添补缺失数据的操作,又称为rehydrate
-
1.6.6. 假如你要随机读写数据,那么把最近制造的那个备份保存成原始格局特别便利
-
1.6.7. 在读取备份时用的都是次序拜访形式,这是因为早年在读取磁带里边的数据时,只能依照先后次序来读取
-
1.6.8. 即时康复,为了运用该功用,你需求把备份挂载成读写形式
- 1.6.8.1. 选用当场去重技能的体系做不到这种即时康复的作用,因为它们在康复数据时的速度比较慢
-
1.6.9. 有必要花费必定的成原本构建暂存区
- 1.6.9.1. 后置去重需求先把备份全都写到暂存区里,然后从暂存区中读出备份,并把其间的许多重复内容删掉,最终写入制品区,这一系列进程有必要履行许多的I/O操作才干完结,这个数量或许远超当场去重所要履行的I/O操作数
-
1.6.10. 假如你更关怀的是怎么赶快把备份制造出来,或许想要频频地履行即时康复,那么后置去重愈加适宜
1.7. 方针去重设备所具有的才干让它能够进入任何一个数据中心,因为不管其间用的是什么备份体系,这种技能简直都能与之结合
-
1.7.1. 有必要把自己收到的备份数据剖开,这意味着,它需求翻开寄存备份数据的这个容器
-
1.7.2. 要求咱们有必要把彻底备份以及全文件式的增量备份经过网络发给它,这会无谓地占用许多带宽
2. 源端去重技能
2.1. 源端去重(source deduplication)又称来历端的去重或客户端去重,这种去重是在备份流程刚启动时就开端履行的
- 2.1.1. 去重有必要由备份软件自己履行
2.2. 首要要求备份软件有必要尽量下降它交给去重体系的数据量,这一般意味着备份体系应该选用那种从刚开端就一向做增量备份的方法,并且只在必要时才做一般的增量备份
2.3. 方针去重最大的长处在于它选用全新的方法去重,不需求大幅调整现有体系,而源端去重则需求对现有体系做较大的改动
-
2.3.1. 为了发挥源端去重的优势,你很有或许要把现在运用的备份软件与磁盘换掉,关于像备份体系这么重要的体系来说,这是一个适当大的改变
-
2.3.2. 方针去重所要做的改变一般很小,你只需求丢掉那个(你或许很厌烦的)磁带柜就行了(或许至少能够说,你不再把磁带柜当成首要的备份方针)
2.4. 源端去重是由备份软件自身完结的,它们能够直接操作有待去重的文件、镜像、字节或二进制位
2.5. 源端去重只需求把接下来的这次增量备份所包括的文件与镜像切割成chunk,并去除其间的重复内容,而不像方针去重那样,有必要把曾经现已做好的备份翻开,才干知道现在要做的这个备份里有哪些内容是跟原本重复的
2.6. 要求用户有必要大幅调整现有的体系
2.7. 要求有待备份的体系有必要履行其他一些操作,以合作这个去重的进程
- 2.7.1. 体系有必要把增量备份的数据切割成chunk,然后核算每个chunk的哈希码,并依据这个哈希码在哈希表中查找
3. 混合去重
3.1. 混合去重(hybrid dedupe)并不是公认的术语
3.2. 让你在有待备份的站点那里给备份客户端装置一个特别的驱动程序,这个驱动程序会创立一个指向备份的虚拟设备
3.3. 驱动程序就能够先对备份客户端做源端去重,然后再把数据经过网络发给备份方针
3.4. 因为方针去重体系还要对这些数据做方针去重,因而称为混合去重
3.5. 备份软件有必要支撑这个特别的设备,并且操作体系也有必要能够装置这个特别的驱动程序
3.6. 假如你现已有了方针去重体系,并且想给源端增加去重功用,那么能够考虑运用该技能
3.7. 架构要经过特别的设备传输数据,而这些数据,原本应该是由备份客户端传输的,备份软件一般会针对这样的用法收取更多的费用,这会让本钱变高
4. 挑选适宜的去重方法
4.1. 做挑选之前,首要要核实备份软件的制造方能否在他们所制造的产品里支撑源端去重或方针去重
4.2. 想拿备份挂载许多的虚拟机,那就应该考虑后置去重
4.3. BaaS(Backup-as-a-Service,备份即服务)式的产品
4.4. 要做全面测验
- 4.4.1. 除了数据维护范畴,IT界还没有哪个范畴的测验成果会依据产品的运用环境而产生如此大的改变