Cómo funciona la deduplicación

Desduplicación en el origen

Al realizar una copia de seguridad en una bóveda de deduplicación, Acronis Backup & Recovery 11.5 Agent calcula una impresión digital de cada bloque de datos. Dicha impresión general a veces se llama valor hash.

Antes de enviar el bloque de datos a la bóveda, el agente le pide a la base de datos de deduplicación que determine si el valor hash del bloque es el mismo que el de algún bloque ya almacenado. Si es así, el agente solo envía el valor hash; de lo contrario, envía el bloque mismo. El nodo de almacenamiento guarda los bloques de datos recibidos en un archivo temporal.

Algunos datos, como los archivos cifrados o los bloques de discos de un tamaño no estándar no pueden deduplicarse. El agente siempre transfiere dichos datos a la bóveda sin calcular los valores hash. Para obtener más información sobre las restricciones de la deduplicación, consulte Restricciones de la deduplicación.

Una vez que el proceso de copia de seguridad ha finalizado, la bóveda contiene la copia de seguridad resultante y el archivo temporal con los bloques de datos únicos. El archivo temporal puede procesarse en la siguiente fase. La copia de seguridad (archivo TIB) contiene los valores hash y los datos no pueden deduplicarse. No es necesario ningún otro procesamiento de la copia de seguridad. Ya puede recuperar los datos de la misma.

Desduplicación en el destino

Una vez finalizada la copia de seguridad en una bóveda de deduplicación, el nodo de almacenamiento ejecuta la actividad de indexación. Esta actividad deduplica los datos en la bóveda de la siguiente manera:

  1. Mueve los bloques de datos desde el archivo temporal a una carpeta especial dentro de la bóveda, almacenando allí los elementos duplicados solo una vez. Esta carpeta se denomina almacenamiento de datos de deduplicación.
  2. Guarda los valores hash y los enlaces que son necesarios para "montar" los datos de deduplicación a la base de datos de deduplicación.
  3. Después de haber movido todos los bloques de datos, elimina el archivo temporal.

Como resultado, el almacén de datos contiene una cantidad de bloques de datos únicos. Cada bloque posee una o más referencias de las copias de seguridad. Las referencias se encuentran en la base de datos de deduplicación. Las copias de seguridad permanecen intactas. Contienen los valores hash y los datos no pueden deduplicarse.

El siguiente diagrama ilustra el resultado de la deduplicación en el destino.

Es posible que la actividad de indexación necesite un tiempo considerable para completarse. Puede ver el estado de esta actividad en el servidor de gestión al seleccionar el correspondiente nodo de almacenamiento y hacer clic en Ver detalles. También puede iniciar o detener manualmente esta actividad en esa ventana.

Compactando

Después de que se borren una o más copias de seguridad o archivos comprimidos de la bóveda, ya sea manualmente o durante la limpieza, el almacén de datos puede contener bloquees que ya no tienen referencia desde ningún archivo comprimido. Dichos bloques serán eliminados por la tarea de compactación, la cual es una tarea programada llevada a cabo por el nodo de almacenamiento.

De manera predeterminada, la tarea de compactación se ejecuta cada domingo por la noche a las  03:00. Puede volver a programar la tarea al seleccionar el correspondiente no nodo de almacenamiento, hacer clic en Ver detalles y después hacer clic en Programación de compactación. También puede iniciar o detener manualmente la tarea en esa pestaña.

Debido a que la eliminación de bloques no utilizados consume recursos, la tarea de compactación la realiza únicamente cuando se ha acumulado una cantidad de datos suficiente para eliminar. El umbral viene determinado por el parámetro de configuración Umbral de inicio de compactación.