科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网CIO与应用频道CIO加油站执行重复数据删除时应注意的七个问题

执行重复数据删除时应注意的七个问题

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

微软公司在其最新的服务器操作系统Windows Server 2012中,增加了重复数据删除子系统的特性,它提供了一种方式,在由一个给定的Windows Server实例管理的所有卷上执行重复数据删除。

来源:ZDNet CIO与应用频道 2013年3月31日

关键字: 重复数据删除 Windows Server 2012 微软

  • 评论
  • 分享微博
  • 分享邮件

在当前的“大数据”时代,尽管磁盘空间越来越便宜,I/O速度在提升,但重复数据删除仍是存储管理员最为关注的神奇策略之一,这项技术的存在,使得我们能够以更低的存储成本和管理成本,得到更高的存储效率。

微软公司敏锐地发现了这一需求,在其最新的服务器操作系统Windows Server 2012中,增加了重复数据删除子系统的特性,它提供了一种方式,在由一个给定的Windows Server实例管理的所有卷上执行重复数据删除。它并不是把重复数据删除的任务推给一个硬件或软件层,而是在OS中进行,包括块级和文件级的 - 也就是说,多种类型的数据(例如虚拟机的多个实例)都可以成功地以最小的开销进行重复数据删除。

如果您打算实施Windows Server 2012的重复数据删除技术,确保您了解以下七点:

1、重复数据删除默认情况下不启用

不要指望升级到Windows Server 2012之后,节省空间的情况会自动出现。重复数据删除被当做一项文件和存储服务的功能,而不是核心OS组件。为了达到这个目的,您必须启用它并手动配置,在服务器角色 文件和存储服务 文件和iSCSI服务(Server Roles File And Storage Services File and iSCSI Services)。启用之后,还需要进行基础配置。

2、重复数据删除将无系统负担

在设置重复数据删除技术,微软投入了相当的精力,所以它只要一个很小的系统占用空间,甚至可以运行在有较大的负载的服务器上。这是三条理由:

首先,存储内容只会在n天(默认情况下n为5)之后才重复数据删除,这是用户可配置的。这个时间延迟,阻止了deduplicator试图处理这样的内容:当前的和常用的,或正在被写入到磁盘上的文件(这将构成重大的性能损失)。

其次,重复数据删除受到目录或文件类型的限制。如果您要排除某些类型的文件或文件夹的重复数据删除,您可以指定自如。

再次,重复数据删除进程是自我调节的,可以运行在不同的优先级。例如,您可以设置实际的重复数据删除进程运行在低优先级中,它会在系统本身处在重负载的情况下暂停。您还可以设置一个时间窗口,让deduplicator在非工作时间全速运行。

这样一来,只需要很少的管理监督,重复数据删除就可以到位,即使在繁忙的服务器上,也不会影响其性能。

3、重复数据删除的卷是“原子单位”

“原子单位(Atomic units)”意味着给定卷的所有重复数据删除信息保持在该卷上,因此它可以移动而不会伤害到另一个支持重复数据删除系统。如果你将它移动到一个不具有重复数据删除功能的系统,你将只能能够看到nondeduplicated文件。最好的原则是,不要移动一个重复数据删除卷,除非它是到另一台 Windows Server 2012计算机的。

4、重复数据删除支持BranchCache

如果你有某个分公司的服务器同时运行重复数据删除技术,它与中央服务器共享重复数据删除的文件数据,从而减少了两者之间需要发送的数据量。

5、备份重复数据删除卷可能棘手

基于块的备份解决方案 - 例如磁盘映像备份的方式 - 应该保留所有的重复数据删除的数据。

基于文件的备份工作,但它们将不会保留重复数据删除的数据,除非它们是重复数据删除感知的(dedupe-aware)。它们将以原来的、分离的、没有重复数据删除的形式备份一切。更重要的是,这意味着备份媒介需要足够大,才能hold住没有重复数据删除的数据。

本机的Windows Server Backup解决方案是重复数据删除感知的,但任何适用于Windows Server 2012的第三方备份产品应被检查,重复数据删除感知已经存在还是将被添加在将来的修订版。

6、投入CPU核心和内存会更好

微软建议专门投入至少有一个CPU核心和350 MB可用内存来处理一个卷,每一个小时大约有100 GB的存储空间(无中断),或者每天2 TB。你有越多并行的空闲资源,你就可以同时处理越多的卷。

7、重复数据删除的收益可能会有所不同

微软已经快速大量地处理自己的信息,并发现部署的性质影响节省空间的数量。虚拟硬盘(VHD)上的多个OS实例表现出了很大的节省,因为它们之间的多余材料的数量更少。

在关于重复数据删除好的和坏的候选人的描述中,微软指出Exchange Server数据库其实是可怜的候选人。这听起来似乎不可思议,你会认为Exchange邮箱数据库中的冗余数据可能有很多。但是,数据不断变化的性质 (消息的移动,删除,创建等)抵消了重复数据删除的吞吐量和存储空间节省的所带来的收益。但是,一个Exchange Server备份卷是一个更好的候选人,因为它的改变较少,可以进行重复数据删除而没有明显的慢下来。

真正考验是否使用重复数据删除技术的,是在您的特定环境里面它的实际收益是多少。因此,最好的做法也许是先在一个备用服务器上临时启用它,您可以设置crawl rate,让重复数据删除以最快的速度运行,看看您的数据存储空间节省了多少,然后据此为您的Live服务器建立自己的重复数据删除执行时间表。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章