14 de abril de 2019  —  Acronis

Deduplicación de copias de seguridad

Acronis Cyber Protect
antes Acronis Cyber Backup

La tecnología de deduplicación de copia de seguridad contribuye a reducir los costes de almacenamiento y el uso de ancho de banda, porque elimina bloques de datos duplicados, cuando se realizan copias de seguridad y se transfieren datos.

La deduplicación le ayuda a:

  • reducir el uso de espacio de almacenamiento al guardar sólo datos únicos,
  • eliminar la necesidad de invertir en software para la deduplicación de datos,
  • reducir la carga de la red, porque se transfieren menos datos, dejando libre más ancho de banda para tareas productivas

Aun así, recuerde que el almacenamiento puede necesitar más recursos informáticos como RAM y/o CPU. En algunos casos, el almacenamiento convencional no deduplicado puede llegar a ser más económico que el deduplicado. Analice siempre cuáles son sus necesidades e infraestructuras antes de decantarse por la implementación de la deduplicación.

Retos en el almacenamiento de copias de seguridad

Vivimos en la era de big data.

Allá por 1990, el disco duro de un ordenador personal tenía una capacidad de 10 megabytes. Ahora, los discos de varios terabytes son la norma. Cada 10 minutos, toda la humanidad genera tantos datos como los que se crearon desde los albores de la civilización hasta el año 2000.

Hay que proteger todos estos datos y hay que hacer copias de seguridad de ellos. De lo contrario, su compañía podría perder dinero, reputación y tiempo, incluso podría acabar desapareciendo por completo.

Acronis
Backup deduplication

Aun así, el 75% de las pymes encuestadas por Acronis e IDC (International Data Corporation) reconocen que sus datos no están completamente protegidos. Una de las principales razones mencionadas fue el "inmenso volumen de datos".

Fijémonos, por ejemplo, en una compañía de 400 empleados que utilizan ordenadores de sobremesa y portátiles. Un portátil convencional puede almacenar en su disco duro desde 50 hasta varios centenares de gigabytes en datos. Los ordenadores suelen contener entre 20 y 150TB (terabytes) de información. Cuando la tasa de compresión de 2 a 1, el administrador de copias de seguridad necesita asignar entre 10 y 75 TB por cada copia de seguridad completa, además debe disponer de más espacio para copias de seguridad incrementales y diferenciales. Es posible que esta compañía necesite adquirir una cantidad similar a un petabyte de almacenamiento tan sólo para las copias de seguridad de los ordenadores.

Supongamos que la compañía invierte en almacenamiento caro para sus copias de seguridad de ordenadores. El siguiente paso, un reto mayor aún, es hacer una copia de seguridad de los ordenadores en este almacenamiento. Una red de 100 Mbit, sólo puede transferir 10 megabytes de datos por segundo. Con esta velocidad, una copia de seguridad completa tardaría entre  dos o tres semanas en transferir de 10 a 75 TB  a través de una red de 100 Mbit.

Sin embargo, todos los ordenadores tienen el mismo sistema operativo Windows, las mismas aplicaciones y, frecuentemente, numerosas copias de los mismos datos. Almacenar y transferir los mismos datos varias veces al mismo almacenamiento es una pérdida de tiempo y de recursos. ¡Si una solución de copia de seguridad transfiere y almacena tan sólo datos únicos, la compañía podrá reducir sus necesidades de capacidad y red hasta 50 veces! Con la deduplicación, estos ahorros están al alcance de su empresa.

¿Qué es deduplicar copias de seguridad?

La deduplicación de copias de seguridad minimiza el espacio requerido para el almacenamiento, porque detecta los datos que se repiten y almacena los datos idénticos tan solo una vez. La deduplicación también reduce la carga de la red, porque los duplicados de aquellos datos que tienen copias de seguridad no llegan a transferirse a través de la red.

Cuando habilita la deduplicación, su solución para copias de seguridad deduplica las copias de seguridad y las guarda en un almacenamiento gestionado. Una ubicación donde la deduplicación está activa se denomina almacenamiento de deduplicación.

La deduplicación opera a nivel de archivo, en subniveles de archivos (partes de archivos) o a nivel de bloques y, por lo general, funciona con todos los sistemas operativos que son compatibles con su solución de copias de seguridad.

La deduplicación da los mejores resultados cuando usted crea:

  • Copias de seguridad completas de datos similares de diferentes fuentes, tales como sistemas operativos (SO), máquinas virtuales (VM) y aplicaciones implementadas desde una imagen estándar
  • Copias de seguridad completas de sistemas de los cuales usted ya creó una copia de seguridad en el mismo almacenamiento de deduplicación
  • Copias de seguridad incrementales de datos similares de diferentes fuentes, por ejemplo, cuando se implementan actualizaciones de sistema operativo a varios sistemas y se realiza una copia de seguridad incremental
  • Copias de seguridad incrementales, en las que no cambian los datos, pero sí su ubicación, por ejemplo, cuando datos tales como un archivo, se mueven por la red o por un sistema y aparecen en una ubicación nueva

¿Cómo funciona la deduplicación de copias de seguridad?

En el proceso de la deduplicación, los datos de copia de seguridad se dividen en bloques. La singularidad de cada uno de esos bloques se comprueba en una base de datos especial, que hace el seguimiento de las sumas de comprobación de los bloques almacenados. Los bloques únicos se envían a su almacenamiento y los duplicados se omiten.

Por ejemplo, si se hacen copias de seguridad de 10 máquinas virtuales en el almacenamiento de deduplicación y se encuentra el mismo bloque en cinco de ellas, sólo se enviará y almacenará una copia de este bloque.

Este algoritmo para omitir bloques duplicados ahorra espacio de almacenamiento y minimiza el tráfico de red.

Deduplicación en origen

Cuando se realiza una copia de seguridad en un almacenamiento de deduplicación, la solución de copias de seguridad calcula una huella o suma de comprobación de cada uno de los bloques de datos. Esta huella o suma de comprobación se llama con frecuencia valor de comprobación.

Su solución de copia de seguridad puede ser compatible con bloques de tamaño fijo o variable. La deduplicación de bloques de tamaño fijo ha resultado ser ineficaz en bloques de tamaño pequeño; consume mucha RAM y CPU, y en los bloques de tamaño grande consigue una tasa de deduplicación más baja.

Las soluciones para copias de seguridad modernas más avanzadas ofrecen deduplicación de bloques de tamaño variable, adaptando los tamaños de bloques para maximizar la tasa de deduplicación, a la vez que reducir el uso de RAM y CPU.

Antes de enviar el bloque de datos a su almacenamiento, la solución de copia de seguridad consulta al sistema de almacenamiento, si el valor de comprobación del bloque ya está almacenado allí. Si es así, la solución envía sólo el valor de comprobación; de lo contrario envía el bloque.

Algunos datos tales como archivos encriptados o bloques de disco de un tamaño no estándar no se pueden deduplicar. En tales casos, la solución transferirá siempre los datos al almacenamiento, sin calcular los valores de comprobación.

Deduplicación en destino

Después de que ha concluido una copia de seguridad en un almacenamiento de deduplicación, el sistema de almacenamiento realiza una deduplicación en el ámbito del almacenamiento. Por lo general, este proceso se desarrolla de la siguiente manera:

  1. Los bloques de datos pasan del archivo de copia de seguridad a un archivo especial, el almacén de datos de deduplicación, que se encuentra en el mismo almacenamiento. Los bloques duplicados se almacenan tan solo una vez.
  2. Los valores de comprobación y los enlaces a los bloques de datos se guardan en la base de datos de deduplicación, de manera que los datos se puedan reensamblar fácilmente (rehidratados).

El resultado es que el almacén de datos contiene bloques de datos únicos. Cada bloque tiene una o más referencias de las copias de seguridad. Las referencias se guardan en la base de datos de deduplicación.

La ilustración inferior muestra el resultado de la deduplicación en destino.

Acronis
Backup deduplication

El diagrama representa dos archivos comprimidos de copia de seguridad. Cada uno tiene un conjunto de copias de seguridad distinto. En el Archivo comprimido 1 desde h1 a h7, señalados con bloques azules, contienen valores de comprobación almacenados en los archivos de copia de seguridad. Los bloques verdes son aquellos bloques de datos que no se pueden deduplicar. El Archivo comprimido 2 contiene tan solo bloques de datos (en verde) y está encriptado. Como resultado, la base de datos de deduplicación contiene valores de comprobación de bloques que pueden deduplicarse y el almacén de datos de deduplicación contiene bloques de datos tanto del Archivo comprimido 1 como del Archivo comprimido 2.

Recuperación

Durante la recuperación, el agente de la solución de copias de seguridad solicita datos del almacenamiento. El sistema de almacenamiento lee los datos de copia de seguridad del almacenamiento y si algún bloque tiene una referencia en el almacén de datos de deduplicación, el sistema de almacenamiento leerá los datos allí. Para el agente, el proceso de recuperación es transparente y no depende de la deduplicación.

Borrar bloques de datos huérfanos

Después de que se borren una o más copias de seguridad del almacenamiento, bien sea manualmente o mediante normas de retención, puede ser que el almacén de datos contenga bloques que no tengan referencia en ninguna copia de seguridad. Estos bloques huérfanos se eliminarán en una tarea especialmente programada y ejecutada por el sistema de almacenamiento.

Así es como funciona. En primer lugar, el sistema de almacenamiento explora todas las copias de seguridad existentes en el almacenamiento y señala todos los bloques con referencias como en uso (el hash correspondiente se marca como en uso en la base de datos de deduplicación). En segundo lugar, el sistema de almacenamiento elimina todos los bloques que no se usan.

Este proceso puede requerir recursos adicionales del sistema. Por esta razón, esta función se suele ejecutar solamente cuando hay una cantidad suficiente de datos acumulados en su almacenamiento.

Compresión y encriptación

Normalmente, el agente de solución de copia de seguridad comprime los datos de copia de seguridad antes de enviarlos al servidor. Los valores de comprobación de cada bloque de datos se calculan antes de la compresión. Esto significa que si dos bloques idénticos se comprimen con distintos niveles de compresión, se podrán reconocer todavía como duplicados.

Por razones de seguridad, las copias de seguridad que se encriptan en origen no se deduplican.

Para aprovechar tanto la encriptación como la deduplicación, su solución de copia de seguridad debería poder encriptar el almacenamiento que gestiona. En este caso, durante la recuperación, el sistema de almacenamiento debería poder descifrar los datos recurriendo a una clave específica de encriptación para el almacenamiento. En caso de robo o acceso no autorizado al medio de almacenamiento, el almacenamiento no se podrá descifrar sin acceso al sistema de almacenamiento.

¿Cuándo usar la deduplicación?

La deduplicación alcanza mayor efecto, cuanto menor sea la tasa de deduplicación. Esta es la fórmula para el cálculo de la tasa de deduplicación:

Tasa de deduplicación = porcentaje de datos únicos + (1- porcentaje de datos únicos) / número de máquinas

Esto significa que:

  1. La deduplicación es más eficaz en entornos donde hay muchos datos duplicados en cada máquina
  2. La deduplicación es más eficaz en entornos donde se necesitan hacer copias de seguridad de muchas máquinas, máquinas virtuales o aplicaciones similares

Además, la deduplicación puede ayudar en otras situaciones, como en los casos en que intenta optimizar su WAN (wide area network).

Detengámonos en algunos casos típicos de uso:

Caso de uso 1: Entorno grande con máquinas similares

Entorno

Se tienen que hacer copias de seguridad de cien estaciones de trabajo similares. Las estaciones de trabajo se implementaron en un principio utilizando una solución de implementación de sistema con imagen de disco.

Efecto de la deduplicación

Las estaciones de trabajo se implementaron desde una sola imagen, de manera que el sistema operativo y las aplicaciones genéricas que funcionan en las máquinas son todos idénticos. El resultado es que hay muchos duplicados. La deduplicación es aún más eficaz, porque hay un gran número de estaciones de trabajo.

Conclusión

La deduplicación es muy efectiva en estos casos, porque minimiza la capacidad de almacenamiento y ahorra en gastos de almacenamiento.

Caso de uso 2: Optimización de WAN

Entorno

En una ubicación remota hay que crear una copia de seguridad de cuarenta estaciones de trabajo de la oficina principal.

Efecto de la deduplicación

Ignoramos si las estaciones de trabajo se implementaron desde una sola imagen. Sea como fuere, los tipos de sistemas operativos que se asemejan suelen tener con frecuencia muchos archivos similares. Supongamos que el 50% de los datos que hay en cada ordenador son únicos; aun así una buena oportunidad para deduplicar:

Tasa de deduplicación = 50% + (100% – 50%) / 40 = 51,25%

El ahorro en almacenamiento y tráfico de red es de 48,75 por ciento (100% – 51.25%), lo que significa que la deduplicación reduce estos requisitos en casi la mitad. Debido a que las copias de seguridad de los sistemas están en una ubicación remota, la conexión WAN puede ser lenta. La reducción del tráfico a la mitad es una gran ventaja.

Conclusión

La deduplicación es una solución eficaz en este caso, porque optimiza la red WAN.

Caso de uso 3: Servidores de aplicaciones cruciales para la empresa

Entorno

Se deben realizar copias de seguridad de cinco servidores, todos ellos con aplicaciones diferentes. El tamaño total de datos es de 20TB.

Eficacia de la deduplicación

Los servidores de aplicaciones contienen una gran cantidad de datos y diferentes aplicaciones. Esto significa que, si acaso, habrá muy pocas duplicaciones. Por otra parte, la cantidad total de datos, que requieren copia de seguridad y procesamiento, es muy grande.

En este caso, el sistema de almacenamiento indexa una cantidad enorme de datos, pero que redunda en pocos beneficios, porque no hay duplicados. En el peor de los casos, un único sistema de almacenamiento puede que necesite más de un día para procesar todas las copias de seguridad.

Conclusión

La deduplicación no es eficaz en este caso. Hacer una copia de seguridad en un único almacenamiento conectado a red (NAS) de alta capacidad es mejor solución.

Deduplicación en resumen

La tecnología de deduplicación de copia de seguridad contribuye a reducir los costes de almacenamiento y el uso de ancho de banda, porque elimina bloques de datos duplicados, cuando se realizan copias de seguridad y se transfieren datos.

La deduplicación le ayuda a:

  1. reducir el uso de espacio de almacenamiento al guardar sólo datos únicos,
  2. eliminar la necesidad de invertir en software para la deduplicación de datos,
  3. reducir la carga de la red, porque se transfieren menos datos, dejando libre más ancho de banda para tareas productivas

Aun así, recuerde que el almacenamiento puede necesitar más recursos informáticos como RAM y/o CPU. En algunos casos, (como hemos visto arriba), el almacenamiento convencional no deduplicado puede llegar a ser más económico que el deduplicado. Analice siempre cuáles son sus necesidades e infraestructura antes de decantarse por la implementación de la deduplicación.

Más de Acronis