重复数据删除最佳实践

重复数据删除是一个受多种因素影响的复杂过程。

影响重复数据删除速度的最重要因素包括:

要提高重复数据删除性能,请遵循以下建议。

将重复数据删除数据库和重复数据删除保管库分开设置在独立的物理设备上

为了提高重复数据删除数据库的访问速度,数据库和保管库必须位于独立的物理设备上。

最好为保管库和数据库分配专用设备。如果这无法实现,至少不要将保管库和数据库设置在操作系统的同一磁盘中。原因是操作系统会进行大量的硬盘读/写操作,这将显著降低重复数据删除的速度。

为重复数据删除数据库选择磁盘

S = U / 32 + 10

其中:

S – 磁盘大小(以 GB 为单位)

U – 重复数据删除数据仓库中唯一数据的计划量(以 GB 为单位)。

例如,如果重复数据删除数据仓库中唯一数据的计划量为 U=5 TB,则重复数据删除数据库所需的可用磁盘空间将不小于

S = 5*1024 / 32 + 10 = 170 GB

为重复数据删除保管库选择磁盘

为防止数据丢失,我们建议使用 RAID 10、5 或 6,而不建议使用 RAID 0,因为它不具备容错功能。由于 速度相对较慢,不建议使用 RAID 1。可以随意使用本地磁盘或 SAN,两者均可。

8 GB 的 RAM 可供 1 TB 唯一数据使用

最坏情形下,我们有以下建议。如果您未遇到过重复数据删除性能问题,则没有必要遵循此建议。如果重复数据删除运行过慢,检查重复数据删除保管库的已占用空间参数。通过向存储节点添加更多 RAM,可以显著提升重复数据删除的速度。

一般而言,在重复数据删除速度相同的情况下,RAM 数量越多,重复数据删除数据库就越大。

每个存储节点上仅有一个重复数据删除保管库

强烈建议在一个存储节点上仅创建一个重复数据删除保管库。否则,整个可用 RAM 卷将会根据保管库的数量按比例分发。

64 位操作系统

存储节点必须安装在 64 位操作系统中。具有此存储节点的计算机不应运行需要大量系统资源的应用程序;例如,数据库管理系统 (DBMS) 或企业资源计划 (ERP) 系统。

多核处理器至少具备 2.5 GHz 时钟频率

我们建议您使用 4 核或 4 核以上的处理器,并且时钟频率不要小于 2.5 GHz。

保管库中有足够可用空间

索引备份时需要与已备份数据保存到保管库时所占用空间一样多的可用空间。在不对源进行压缩或重复数据删除的情况下,此值等于相关备份操作期间所备份原始数据的大小。

高速 LAN

建议使用 1Gbit LAN。这将使得软件可以在重复数据删除时并行执行 5 到 6 个备份,同时速度不会受很大影响。

先备份一台典型计算机,然后再备份几台内容相似的计算机

备份几台内容相似的计算机时,建议您先备份其中一台计算机,直到已备份数据索引结束。此后,由于有效的重复数据删除,其他几台计算机的备份速度将更快。由于第一台计算机的备份已建立索引,多数数据已在重复数据删除数据仓库中。

在不同时间备份不同的计算机

如果备份大量计算机,请将备份操作的时间错开。这么做是为了基于不同时间表创建多个备份计划。

使用快速编录

完成备份编录后,将开始对备份创建索引。要缩短执行备份时所需花费的总时间,请将自动编录切换为快速模式。您可在备份窗口外手动启动完整编录。

配置警告通知

建议您在管理服务器选项中配置“保管库”警告通知。这有助于您在出现故障时做出即时响应。例如,及时响应“保管库可用空间较少”警告可避免在后续备份保管库时出现错误。