Funzionamento della deduplicazione

Deduplicazione nell'origine

Quando si esegue un backup in un deposito di deduplicazione, Acronis Backup Agent calcola un'impronta digitale di ogni blocco di dati. Tale impronta digitale è chiamata spesso valore hash.

Prima di inviare il blocco di dati al deposito, l'agente interroga il database di deduplicazione per stabilire se il valore hash del blocco corrisponde a quello di un blocco già archiviato. In tal caso, l'agente invia solo il valore hash; in caso contrario, invia il blocco stesso. Il nodo di archiviazione consente di salvare i blocchi di dati ricevuti in un file temporaneo.

Alcuni dati, come i file crittografati o i blocchi del disco di dimensioni non standard, non possono essere deduplicati. L'agente trasferisce sempre tali dati al deposito senza calcolare i valori hash. Per ulteriori informazioni sulle limitazioni della deduplicazione, vedere Limitazioni della deduplicazione.

Quando la procedura di backup è terminata, il deposito contiene il backup derivante e il file temporaneo con i blocchi di dati unici. Il file temporaneo verrà elaborato nella fase successiva. Il backup (file TIB) contiene valori hash e i dati che non possono essere deduplicati. L'ulteriore elaborazione di questo backup non è necessaria. È possibile ripristinare prontamente i dati da esso.

Deduplicazione nella destinazione

Al termine di un backup in un deposito di deduplicazione, il nodo di archiviazione esegue l'attività di indicizzazione. Questa attività deduplica i dati nel deposito come segue:

  1. Sposta i blocchi di dati dal file temporaneo a un file speciale nel deposito, archiviando gli elementi duplicati al suo interno una sola volta. Questa cartella viene detta archivio dei dati di deduplicazione.
  2. Salva i valori hash e i collegamenti necessari per "assemblare" i dati deduplicati nel deposito di deduplicazione.
  3. Dopo aver spostato tutti i blocchi di dati, elimina il file temporaneo.

Di conseguenza, l'archivio dati contiene una serie di blocchi di dati unici. Ogni blocco dispone di uno o più riferimenti dai backup. I riferimenti sono contenuti nel database di deduplicazione. I backup rimangono intatti. Contengono valori hash e i dati che non è possibile deduplicare.

Il seguente diagramma illustra il risultato della deduplicazione alla destinazione.

L'attività di indicizzazione potrebbe richiedere molto tempo. È possibile visualizzare la condizione di questa attività sul management server selezionando il nodo di archiviazione corrispondente e facendo clic su Visualizza dettagli. Inoltre, in questa finestra è possibile avviare o interrompere manualmente.

Se si esegue il backup di una grande quantità di dati univoci, l'attività di indicizzazione potrebbe non riuscire a causa della RAM insufficiente sul nodo di archiviazione. L'esecuzione dei backup non verrà interrotta. È possibile aggiungere RAM aggiuntiva al nodo di archiviazione o eliminare i backup non necessari ed eseguire la compattazione. Dopo il backup successivo, l'esecuzione dell'indicizzazione riprenderà.

Compattazione

Dopo l'eliminazione dal deposito di uno o più backup o archivi, manualmente o durante la pulizia, l'archivio dati può contenere blocchi a cui non si fa più riferimento da nessun archivio. Tali blocchi vengono eliminati dall'attività di compattazione, che consiste in un'attività pianificata eseguita dal nodo di archiviazione.

Per impostazione predefinita, l'attività di compattazione viene eseguita ogni sabato notte alle  03:00. È possibile pianificare nuovamente l'attività selezionando il nodo di archiviazione corrispondente, facendo clic su Visualizza dettagli e selezionando Pianificazione di compattazione. Inoltre, è possibile avviare o interrompere manualmente l'attività su tale scheda.

Poiché l'eliminazione di blocchi inutilizzati richiede molte risorse, l'attività di compattazione viene eseguita solo quando è stata accumulata una quantità di dati sufficiente. La soglia viene stabilita dal parametro di configurazione Soglia di attivazione della compattazione.