当前位置:首页 > 其他 > 正文内容

读数据维护:作业负载的可恢复性07去重技能(上)

邻居的猫1个月前 (12-09)其他801

1. 去重技能

1.1. 去重技能(deduplication)的全称为重复数据删去(或去除)技能,也叫作重删或删重(dedupe)技能,该技能会确认数据集里的重复数据,并将其消除,这个数据集或许含有咱们在不同时刻、不同地址所制造的多个备份

1.2. 功用

  • 1.2.1. 去重技能至少可以把备份所占的磁盘空间下降一个数量级

  • 1.2.2. 同一文件的多个版别

    • 1.2.2.1. 去重技能只会把新版别里特有的数据保存下来
  • 1.2.3. 坐落不同地址的同一份文件

    • 1.2.3.1. 同一份文件或许在不同的当地保存了好几遍
  • 1.2.4. 比较荫蔽的重复数据

    • 1.2.4.1. 去重体系所能删掉的数据量是一个变量,它遭到许多要素影响,其间包含运用的去重技能自身

    • 1.2.4.2. 备份软件与去重软件假如是同一个厂商制造的,这两个软件自身知道应该依照什么样的次序处理

    • 1.2.4.3. 先给备份数据加密,然后再将其发给去重设备,那么实践上相当于没有任何去重作用

    • 1.2.4.4. 加密其实也可以安排到去重之后再做,所以你应该考虑好去重与加密之间的次序

2. 重复数据是怎么消除的

2.1. 去重体系一般会把数据切开成小块,这样的小块一般称为chunk

2.2. 紧缩(compression)是跟去重完全不同的数据减缩方法

2.3. 要看哈希去重流程可以从中确认多少个重复的chunk

2.4. 看后续的紧缩流程能把这些互不重复的chunk紧缩到什么程度

2.5. 去重的履行规模

  • 2.5.1. 并不是一切的去重体系都如出一辙,并且每个去重体系所能考虑的数据量也各不相同

  • 2.5.2. 规模越大,可以找到并消除的重复数据就越多

  • 2.5.3. 规模越大,履行去重作业所要运用的资源也越多

  • 2.5.4. 备份集

    • 2.5.4.1. 某些备份软件只能在同一个备份集(backup set)里履行去重

    • 2.5.4.2. 只能在你对同一份原数据(例如某个数据库)所做的这些备份之间去重

  • 2.5.5. 主机

    • 2.5.5.1. 主机规模内的去重,只能在你对同一个主机(以及它名下的各种原数据)所做的备份之间去重

    • 2.5.5.2. 假设你没有把去重规模从备份集扩展到主机,那么数据库就会备份两遍,除非你在给整个虚拟机做备份的时分,可以经过某种方法将数据库扫除出去

  • 2.5.6. 设备

    • 2.5.6.1. 最常见的去重规模

    • 2.5.6.2. 可以在发给同一台备份设备的一切备份数据之间去重

  • 2.5.7. 站点

    • 2.5.7.1. 跟设备规模内的去重是相同的,只不过去重规模变成了站点

    • 2.5.7.2. 可以在同一个站点里的一切备份数据之间去重

  • 2.5.8. 大局

    • 2.5.8.1. 假如备份体系可以做大局去重,那么它会在发给该体系的一切备份数据之间比照,不管这些数据备份的是什么东西,不管这些数据来自哪台主机或哪个站点,备份体系都会在这些备份之间履行去重
  • 2.5.9. 去重体系基本上会对自己在某个去重规模内所能考虑的数据总量设定上限

    • 2.5.9.1. 上限一般是依据哈希表的最大容量来确认的

    • 2.5.9.2. 假如哈希表过于巨大,那么在其间查找所花的时刻就比较长,这会影响功能

      2.5.9.2.1. 大多数去重体系都会设定上限,以避开这个问题

2.6. 不要只看去重率

  • 2.6.1. 去重率都是在试验环境下得出来的,他们在试验时或许会专门结构一些数据,这些数据很难反映出用户在实践作业中所需处理的备份数据

  • 2.6.2. 方针去重体系与源端去重体系之间的去重率也不太好比较

    • 2.6.2.1. 源端去重体系是在把数据发给备份服务器之前先做去重的

      2.6.2.1.1. 自身的去重率一般比较低

      2.6.2.1.2. 实在的去重作用,还得看这些数据在备份服务器上占有的实践空间

    • 2.6.2.2. 要看完全备份完某套数据之后,这个备份究竟占用多大的磁盘空间

  • 2.6.3. 绝不是说一切的去重体系在去重作用上全都相同,也绝不是说同一份数据交给它们去重之后,所得到的成果都占有完全相同的磁盘空间

  • 2.6.4. 假如你要知道某个去重体系的实在作用,那么仅有的方法便是在你们自己的数据中心里,用你们自己的数据去调查

    • 2.6.4.1. 要看它所占有的实践磁盘空间

2.7. chunk的巨细很重要

  • 2.7.1. 假如把切开的单位设定成一个二进制位,那么实践上只要两种内容不同的chunk,一种是值为0的chunk,另一种是值为1的chunk

  • 2.7.2. 切开得越密,内容互不相同的chunk的数量就越少

2.8. chunk的巨细很重要

  • 2.8.1. 假如把切开的单位设定成一个二进制位,那么实践上只要两种内容不同的chunk,一种是值为0的chunk,另一种是值为1的chunk

  • 2.8.2. 切开得越密,内容互不相同的chunk的数量就越少

2.9. 文件等级的去重

  • 2.9.1. 把目标存储里所保存的目标叫作文件,那么目标存储实践上便是一种文件等级的去重体系

  • 2.9.2. 目标存储实践上便是一种文件等级的去重体系

  • 2.9.3. 许多存储体系都可以使用这样的技能,尤其是档案体系,它可以运用该技能削减保存邮件与其他文件所需的存储空间

  • 2.9.4. 不只可以减缩存储空间的占用量,并且可以用来判别数据是否受损,假如数据受某种原因影响而遭到损坏,那么它的哈希码就会改动,而依据这个哈希码所确认的共同ID当然也会改动

扫描二维码推送至手机访问。

版权声明:本文由51Blog发布,如需转载请注明出处。

本文链接:https://www.51blog.vip/?id=769

分享给朋友:

“读数据维护:作业负载的可恢复性07去重技能(上)” 的相关文章

读数据维护:作业负载的可恢复性08去重技能(下)

读数据维护:作业负载的可恢复性08去重技能(下)

1. 方针去重技能 1.1. 方针去重(也叫方针端的去重)体系是在接到备份之后删去其间重复数据的去重体系 1.2. 一般在某个设备里边运转,该设备是一切备份的方针设备,因而,这样的去重体系叫作方针去重体系 1.2.1. 一般经过NFS或SMB与备份软件相连,但是也能够作为VTL(Virtual...

三着急教你爆改烂大街项目

三着急教你爆改烂大街项目

简历上如何写项目 最近收到最多的发问便是, 简历上应该写什么项目, 应该预备什么项目, 项目阅历怎样写到简历上. 假如你简历上没有实习阅历 简历就写一个事务项目一个轮子项目.假如你有一段实习阅历 那就先写你实习的项目, 再写一个事务项目和一个轮子项目.假如你有两段以上的实习阅历 那就写2个实习阅历项...

k8s~为pod增加节点的资源约束

k8s~为pod增加节点的资源约束

CPU单位 CPU资源以CPU中心数为单位进行衡量的。在Kubernetes中,一个CPU相当于: 1 AWS vCPU 1 GCP Core 1 Azure vCore 一个超线程(在运用超线程的裸金属Intel处理器上) 恳求0.5 CPU的容器所保证的CPU核数是恳求节点上的1个CPU的一...

表里不一--约束容器内存4G,free仍是32G

表里不一--约束容器内存4G,free仍是32G

前语 最近有个新搭档问了我一个问题,分明经过limit给容器内存约束了4G,为什么进容器看到的仍是宿主机的内存32G ▶ docker run -it --rm -m 512m ubuntu:18.04 bash root@ae00bec75ad7:/# free -m...

【知识点】一文讲清动态规划的实质

【知识点】一文讲清动态规划的实质

一文讲清动态规划的实质 动态规划 Dynamic Programming (DP) 是算法范畴的中心思维之一,却一起也是让许多学习者感到扎手的难点之一。动态规划的难点在于它不是简略的数学推导,也不单纯检测人们的程序规划才能,而更像是一种从思维办法到问题建模的一次深入练习。 本文将从动态规划的界说动身...

区块链概述

区块链概述

区块链是一种分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。它本质上是一个去中心化的数据库,由多个节点共同维护,每个节点都拥有完整的数据副本。区块链上的数据以区块的形式组织,每个区块都包含了前一个区块的哈希值,形成了链式结构,确保了数据的不可篡改性。区块链的特点包括:1....