QQ:122567712 msn:myprotein0007@hotmail.com email:myprotein@sina.com

重复数据删除与压缩,

上一篇 / 下一篇  2007-11-02 15:02:18

查看( 4369 ) / 评论( 47 )
最近看到重复数据删除炒的挺火。

请问怎么样的才算重复数据?一个文件中有100个字符:“A”,这算不算重复数据?如果删除了99个A,保留指针,这和压缩有什么本质区别呢?我认为没有。

如果硬盘上有个文件,其它位置有一个和这个文件完全相同的文件,那么删除那个文件,保留指针,这是重复数据删除技术所带来的好处,我承认,如果硬盘上经常有相同文件的多个副本,而且每天都大量生成这种冗余的文件,占用大量空间,影响了正常生产,那么重复数据删除技术,绝对有效。问题是,我们经常遇到这种情况么?

所以我认为,重复数据删除,完全是噱头一个。

TAG:

传说中的冬瓜头 冬瓜头 发布于2007-11-02 15:04:39
另外,用ghost备份一个30GB的数据,备份镜像之后不到20G,确实节省了空间,但是要选择高压缩。
我想,重复数据删除,也许就是一个实时压缩系统罢了。

一家之言,欢迎各位行内人事多指教。
wxshun的个人空间 wxshun 发布于2007-11-02 15:15:57

QUOTE:

原帖由 冬瓜头 于 2007-11-2 15:02 发表
最近看到重复数据删除炒的挺火。

请问怎么样的才算重复数据?一个文件中有100个字符:“A”,这算不算重复数据?如果删除了99个A,保留指针,这和压缩有什么本质区别呢?我认为没有。

如果硬盘上有个文件,其它 ...
深有同感!也许是俺没理解重复数据删除的精髓?还请高手详细说说咋回事,到底啥算重复数据?咋删除的?另外请教
冬瓜兄,关于EMC加扩展柜后的级连方法怎么看?http://bbs.doit.com.cn/thread-53577-1-1.html

[ 本帖最后由 wxshun 于 2007-11-2 15:17 编辑 ]
saintdragon发布于2007-11-03 17:13:10
这个问题需要真正懂除重技术原理的高人出来详细解释一下
forwarding发布于2007-11-03 18:02:51
和压缩最大的不同是,你做完de-duplication后,文件可以被读取。压缩后的数据需要解压缩才能用。
所以de-du可以用于备份归档。

另外你说的应该不是文件,而是数据块。
例如把一个文件分割成若干个128KB大小的块,对每个块求一次hash,存储的原则是hash值不相同的保存。
这种是定长的,还有变长的,也就是说块大小不一定,有自己的算法去取舍的。

缺点是坏了一块可能导致很多文件不能使用。

de-du对于空间节省还是很有用的,当然要看数据分布以及de-du技术采用的裁剪算法。
saintdragon发布于2007-11-03 19:36:35
de-du之后是否有可能增加数据丢失(损坏)的风险呢?
shiliu024发布于2007-11-04 11:26:41
关注中...
Rechardluo Space rechardluo 发布于2007-11-04 12:32:15
冬瓜最初所说的,其实就是最快照那样子的东西,这是数据存储管理常用的;
而de-duplication主要用于备份,正如forwarding所说的;
有兴趣可以看看DataDomain做的关于Backup appliance,据说其算法可以达到超高的压缩比率;不过这是根据应用来说的,估计像针对邮件群发附件的应用效果最为明显;但是对于某些数据库应用却并非如此。
asyqm发布于2007-11-04 22:17:07
不说别的,你理解的总是说你一个人的机器上重复文件很少,但是一个公司呢?
一般部署重复数据删除备份技术的多数是大公司,那么可能会有几千甚至几万人的文件需要保存,里面有无数的PDF,WORD,Excel文件都是相同的,简单来说,你们公司老板发给公司所有人一个邮件,里面带了一个附件,那么首先这个邮件就会在每个人的机器上都有一份。然后每个人又把附件单独解出来放在硬盘上,这样这个附件的文件也会有每人一份,这重复数据还少吗???谁都知道,大公司每天平均每个人会收到的邮件不下几十封,,,这么算起来,重复数据就大有用途了。
asyqm发布于2007-11-04 22:18:17
简单的说,近线备份和归档,都是把数据挪到近线存储上,但是各自差距很大,近线备份无法直接访问,归档就可以。

重复数据删除  vs  压缩。。。
skyj发布于2007-11-05 00:48:47
重复数据删除技术有不同层面的含义,现在流行的主要有两种:“单一实例存储(SIS)”、“重复数据删除”;SIS个人理解仅为文件级的操作,应该称作“重复文件删除”;而“重复数据删除”指的应该是针对数据块(或者数据流)一级,按照一定的过滤算法,删除数据块,保留指针的技术。“重复数据删除”据说都能够将数据压缩到25:1以上。
wxshun的个人空间 wxshun 发布于2007-11-05 09:03:50

QUOTE:

原帖由 forwarding 于 2007-11-3 18:02 发表
和压缩最大的不同是,你做完de-duplication后,文件可以被读取。压缩后的数据需要解压缩才能用。
所以de-du可以用于备份归档。

另外你说的应该不是文件,而是数据块。
例如把一个文件分割成若干个128KB大小的块 ...
求一次hash是什么意思?能不能再详细说说?
zkwhyx2005的个人空间 zkwhyx2005 发布于2007-11-05 10:32:25

QUOTE:

原帖由 skyj 于 2007-11-5 00:48 发表
重复数据删除技术有不同层面的含义,现在流行的主要有两种:“单一实例存储(SIS)”、“重复数据删除”;SIS个人理解仅为文件级的操作,应该称作“重复文件删除”;而“重复数据删除”指的应该是针对数据块(或者数 ...
现在的重复数据删除实现的方式有两种:第一种是 在线处理,我的理解SIS(单一实例存储)应该属于这一类,就是在接收数据的时候,就进行处理,只留下单一实例和无数指针;第二种是后处理,就是把所有的数据备份以后,再进行重复数据删除处理.
和楼上上上所说一样,这种技术并不适用于个人或者小企业,因为他们的重复数据并不很多.而主要面对的是大企业,对于那些开个会要发N封邮件的公司......会更加体现这项技术的优越性.
网上也提到了重复数据删除的一个缺点就是有可能某些数据的损坏会照成很多数据的不完整,这就需要我们好的保护好这唯一的数据,同时也降低了数据的安全性.
qw的个人空间 qw 发布于2007-11-05 11:28:40
有那位大哥操作过这类似机器的或理解比较深入出来解析一下咯
halex1227发布于2007-11-05 14:22:18
Forwarding和aysqm说得有些道理,重点在于:

1, 比较数据块的重复
2, 企业内部重复数据是存在的,而且比较严重
3, 重复数据倾向于备份/归档
4, 消除比例乐观的估计是300:1( Avamar basing on filesystems)
halex1227发布于2007-11-05 14:36:05
其实,还可以举个简单例子来说明压缩和消重的区别:

比如你有1个PPT文件分别存放在3台电脑上,这3台电脑的PPT内容除了演讲人名字和时间外,内容完全一样
那么做压缩的时候,你如何跨3个电脑来查找文件内的重复?
而,DE-DUP软件就可以完成:
DE-DUP软件所做的实际上就是这样一种事情 — 将数据拆成元素组件,叫做“可变长度的数据段”,而且每一个独特的段在整个企业环境中跨所有站点和服务器仅存储一次。
所以,我们看到,这3个PPT在存储的时候只会存储一份,其余2份都只存储第一章变动的姓名&时间那一小部分的数据段。
是否明白呢? 冬瓜?
传说中的冬瓜头 冬瓜头 发布于2007-11-05 14:49:39
您说的三台电脑,是客户机,还是服务器?消重技术是否有安装在客户机上agent,像您说的,比如被末掉数据保留指针的客户端,如果想访问这个文件,是不是要用网络来接入消重服务器或者直接到存储设备?如果没有网络链接,岂不是数据就无法访问了?
传说中的冬瓜头 冬瓜头 发布于2007-11-05 14:50:39
还是那句话,有什么统计数据显示企业数据中这种重复冗余比例很高呢?能达到多少呢?
至少在我的windows服务器上没找到多少冗余的文件。
asyqm发布于2007-11-05 14:55:38

QUOTE:

原帖由 冬瓜头 于 2007-11-5 14:50 发表
还是那句话,有什么统计数据显示企业数据中这种重复冗余比例很高呢?能达到多少呢?
至少在我的windows服务器上没找到多少冗余的文件。
冬瓜,这么解释吧,既然你拿Windows服务器来说,那咱们就说说Windows,你现在1,2台没话讲,如果你有100台服务器,每个服务器上都要做数据备份,那么都会包含windows操作系统本身的备份,那么这100台里面windows操作系统里面有多少个文件是重复文件呢?光操作系统的文件,恐怕超过90%文件都是一样的,这不就成了重复数据了么?
asyqm发布于2007-11-05 14:58:21
再说一下,重复数据比较,不是在同一个服务器上,而是在多个设备上的进行一个统一的数据备份和管理。因为用这个技术的多是阵列和虚拟带库,那你觉得他们是怎么工作的?难道都独立工作???

而且重复数据删除不是用来在客户端上来做什么什么工作的,而是在集中存储和集中备份这个端上来做,你用outlook的时候当然不会利用到,但是当你连接到exchange的时候,exchange是可以应用重复数据删除的。
Rechardluo Space rechardluo 发布于2007-11-05 15:06:07

QUOTE:

原帖由 asyqm 于 2007-11-4 22:17 发表
不说别的,你理解的总是说你一个人的机器上重复文件很少,但是一个公司呢?
一般部署重复数据删除备份技术的多数是大公司,那么可能会有几千甚至几万人的文件需要保存,里面有无数的PDF,WORD,Excel文件都是相同的 ...
这种只是相同文件;还有就是针对大企业,由于每个人的一些数据,可能除了小部分之外,很多都是雷同的。
比如某些图片,文档之类;所以在做备份的时候,就会有很多一样的东西被多次备份,占用大量的空间;
至于如何去定位那些一样的数据,就是De-duplication的算法问题.....比如hash,以及数据的粒度等。
我来说两句

(可选)

日历

« 2008-08-30  
     12
3456789
10111213141516
17181920212223
24252627282930
31      

数据统计

  • 访问量: 21257
  • 日志数: 148
  • 图片数: 10
  • 建立时间: 2006-12-26
  • 更新时间: 2008-08-28

RSS订阅

Open Toolbar