读数据维护:作业负载的可恢复性07去重技能(上)
1. 去重技能
1.1. 去重技能(deduplication)的全称为重复数据删去(或去除)技能,也叫作重删或删重(dedupe)技能,该技能会确认数据集里的重复数据,并将其消除,这个数据集或许含有咱们在不同时刻、不同地址所制造的多个备份
1.2. 功用
-
1.2.1. 去重技能至少可以把备份所占的磁盘空间下降一个数量级
-
1.2.2. 同一文件的多个版别
- 1.2.2.1. 去重技能只会把新版别里特有的数据保存下来
-
1.2.3. 坐落不同地址的同一份文件
- 1.2.3.1. 同一份文件或许在不同的当地保存了好几遍
-
1.2.4. 比较荫蔽的重复数据
-
1.2.4.1. 去重体系所能删掉的数据量是一个变量,它遭到许多要素影响,其间包含运用的去重技能自身
-
1.2.4.2. 备份软件与去重软件假如是同一个厂商制造的,这两个软件自身知道应该依照什么样的次序处理
-
1.2.4.3. 先给备份数据加密,然后再将其发给去重设备,那么实践上相当于没有任何去重作用
-
1.2.4.4. 加密其实也可以安排到去重之后再做,所以你应该考虑好去重与加密之间的次序
-
2. 重复数据是怎么消除的
2.1. 去重体系一般会把数据切开成小块,这样的小块一般称为chunk
2.2. 紧缩(compression)是跟去重完全不同的数据减缩方法
2.3. 要看哈希去重流程可以从中确认多少个重复的chunk
2.4. 看后续的紧缩流程能把这些互不重复的chunk紧缩到什么程度
2.5. 去重的履行规模
-
2.5.1. 并不是一切的去重体系都如出一辙,并且每个去重体系所能考虑的数据量也各不相同
-
2.5.2. 规模越大,可以找到并消除的重复数据就越多
-
2.5.3. 规模越大,履行去重作业所要运用的资源也越多
-
2.5.4. 备份集
-
2.5.4.1. 某些备份软件只能在同一个备份集(backup set)里履行去重
-
2.5.4.2. 只能在你对同一份原数据(例如某个数据库)所做的这些备份之间去重
-
-
2.5.5. 主机
-
2.5.5.1. 主机规模内的去重,只能在你对同一个主机(以及它名下的各种原数据)所做的备份之间去重
-
2.5.5.2. 假设你没有把去重规模从备份集扩展到主机,那么数据库就会备份两遍,除非你在给整个虚拟机做备份的时分,可以经过某种方法将数据库扫除出去
-
-
2.5.6. 设备
-
2.5.6.1. 最常见的去重规模
-
2.5.6.2. 可以在发给同一台备份设备的一切备份数据之间去重
-
-
2.5.7. 站点
-
2.5.7.1. 跟设备规模内的去重是相同的,只不过去重规模变成了站点
-
2.5.7.2. 可以在同一个站点里的一切备份数据之间去重
-
-
2.5.8. 大局
- 2.5.8.1. 假如备份体系可以做大局去重,那么它会在发给该体系的一切备份数据之间比照,不管这些数据备份的是什么东西,不管这些数据来自哪台主机或哪个站点,备份体系都会在这些备份之间履行去重
-
2.5.9. 去重体系基本上会对自己在某个去重规模内所能考虑的数据总量设定上限
-
2.5.9.1. 上限一般是依据哈希表的最大容量来确认的
-
2.5.9.2. 假如哈希表过于巨大,那么在其间查找所花的时刻就比较长,这会影响功能
2.5.9.2.1. 大多数去重体系都会设定上限,以避开这个问题
-
2.6. 不要只看去重率
-
2.6.1. 去重率都是在试验环境下得出来的,他们在试验时或许会专门结构一些数据,这些数据很难反映出用户在实践作业中所需处理的备份数据
-
2.6.2. 方针去重体系与源端去重体系之间的去重率也不太好比较
-
2.6.2.1. 源端去重体系是在把数据发给备份服务器之前先做去重的
2.6.2.1.1. 自身的去重率一般比较低
2.6.2.1.2. 实在的去重作用,还得看这些数据在备份服务器上占有的实践空间
-
2.6.2.2. 要看完全备份完某套数据之后,这个备份究竟占用多大的磁盘空间
-
-
2.6.3. 绝不是说一切的去重体系在去重作用上全都相同,也绝不是说同一份数据交给它们去重之后,所得到的成果都占有完全相同的磁盘空间
-
2.6.4. 假如你要知道某个去重体系的实在作用,那么仅有的方法便是在你们自己的数据中心里,用你们自己的数据去调查
- 2.6.4.1. 要看它所占有的实践磁盘空间
2.7. chunk的巨细很重要
-
2.7.1. 假如把切开的单位设定成一个二进制位,那么实践上只要两种内容不同的chunk,一种是值为0的chunk,另一种是值为1的chunk
-
2.7.2. 切开得越密,内容互不相同的chunk的数量就越少
2.8. chunk的巨细很重要
-
2.8.1. 假如把切开的单位设定成一个二进制位,那么实践上只要两种内容不同的chunk,一种是值为0的chunk,另一种是值为1的chunk
-
2.8.2. 切开得越密,内容互不相同的chunk的数量就越少
2.9. 文件等级的去重
-
2.9.1. 把目标存储里所保存的目标叫作文件,那么目标存储实践上便是一种文件等级的去重体系
-
2.9.2. 目标存储实践上便是一种文件等级的去重体系
-
2.9.3. 许多存储体系都可以使用这样的技能,尤其是档案体系,它可以运用该技能削减保存邮件与其他文件所需的存储空间
-
2.9.4. 不只可以减缩存储空间的占用量,并且可以用来判别数据是否受损,假如数据受某种原因影响而遭到损坏,那么它的哈希码就会改动,而依据这个哈希码所确认的共同ID当然也会改动