중복 제거 우수 사례

중복 제거는 여러 요소에 따라 달라지는 복잡한 프로세스입니다.

중복 제거 속도에 영향을 주는 가장 중요한 요소는 다음과 같습니다.

  • 중복 제거 데이터베이스에 대한 액세스 속도
  • 스토리지 노드의 RAM 용량
  • 스토리지 노드에 생성된 중복 제거 위치의 수.

중복 제거 성능을 높이려면 다음의 권장 사항을 따르십시오.

중복 제거 데이터베이스와 중복 제거 위치를 별도의 실제 장치에 놓습니다.

중복 제거 데이터베이스는 위치에 저장된 모든 항목의 해시 값을 저장합니다(암호화된 파일과 같이 중복을 제거할 수 없는 항목은 제외).

중복 제거 데이터베이스에 대한 액세스 속도를 높이려면 데이터베이스와 위치가 별도의 실제 장치에 배치되어야 합니다.

가장 좋은 방법은 위치와 데이터베이스에 대해 전용 장치를 할당하는 것입니다. 이것이 가능하지 않으면 최소한 운영 체제가 있는 동일한 디스크에 위치 또는 데이터베이스를 저장하지 않도록 하십시오. 그 이유는 운영 체제가 다수의 하드 디스크 읽기/쓰기 작업을 수행하기 때문에 중복 제거 속도가 크게 저하될 수 있기 때문입니다.

중복 제거 데이터베이스의 디스크 선택

  • 데이터베이스는 고정된 디스크에 상주해야 합니다. 분리식 외장 드라이브에 중복 제거 데이터베이스를 저장하지 마십시오.
  • 데이터베이스에 대한 액세스 시간을 최소화하려면 이를 마운트된 네트워크 볼륨이 아닌 직접 연결된 드라이브에 저장합니다. 네트워크 대기 시간은 중복 제거 성능을 크게 줄일 수 있습니다.
  • 다음 공식을 사용해서 중복 제거 데이터베이스에 필요한 디스크 공간을 예측할 수 있습니다.

S = U * 90 / 65536 + 10

여기서,

S는 디스크 크기(단위: GB)이며

U는 중복 제거 데이터 저장소에서 계획된 고유한 데이터 양(단위: GB)입니다.

예를 들어 중복 제거 데이터 저장소에서 계획된 고유한 데이터 양이 U=5TB인 경우, 중복 제거 데이터베이스에는 다음과 같이 최소 여유 공간이 필요합니다.

S = 5000 * 90 / 65536 +10 = 17 GB

중복 제거 위치의 디스크 선택

데이터 손실 방지 목적으로 RAID 10, 5 또는 6을 사용하는 것을 권장합니다. RAID 0에는 내결함성이 없으므로 권장되지 않습니다. RAID 1은 상대적으로 속도가 느리므로 권장되지 않습니다. 로컬 디스크나 SAN 모두 양호한 성능을 제공하므로 특별한 선호도는 없습니다.

고유 데이터 1TB당 40~160MB의 RAM

한계에 도달하면 중복 제거가 중지되지만 백업 및 복구는 계속 작동합니다. 스토리지 노드에 더 많은 RAM을 추가하는 경우, 다음 백업 이후에 중복 제거가 재개됩니다. 일반적으로 RAM이 많을수록 더 많은 용량의 고유 데이터를 저장할 수 있습니다.

각 스토리지 노드에서 하나의 중복 제거 위치만

스토리지 노드에 하나의 중복 제거 위치만 생성하는 경우 권장됩니다. 그렇지 않으면 위치 수에 비례하여 전체 사용 가능한 RAM 볼륨이 분배될 수 있습니다.

리소스를 경쟁하는 애플리케이션이 없음

스토리지 노드가 있는 머신은 많은 시스템 리소스를 필요로 하는 애플리케이션을 실행해서는 안 됩니다(예: 데이터베이스 관리 시스템(DBMS) 또는 전사적 자원 관리(ERP) 시스템).

최소 2.5GHz 클럭 속도를 지원하는 멀티코어 프로세서

코어 수가 4개 이상이고 클럭 속도가 2.5GHz 이상인 프로세서를 사용하는 것이 권장됩니다.

위치의 충분한 여유 공간

대상에서의 중복 제거 작업에는 데이터를 위치에 저장한 직후 백업한 데이터가 차지하는 것만큼 많은 여유 공간이 필요합니다. 소스에서의 압축 또는 중복 제거가 없을 경우, 지정된 백업 작업 동안 이 값은 백업된 원본 데이터의 크기와 같습니다.

고속 LAN

1Gbit LAN이 권장됩니다. 소프트웨어가 중복 제거를 포함한 5-6개의 백업을 병렬로 수행할 수 있으며, 속도가 크게 저하되지 않습니다.

유사한 내용이 포함된 여러 개의 머신을 백업하기 전에 표준 머신 백업

유사한 내용이 포함된 여러 개의 머신을 백업할 경우, 먼저 하나의 머신을 백업하고 백업된 데이터의 인덱싱 작업이 완료될 때까지 기다리는 것이 좋습니다. 이후 효율적인 중복 제거 덕분에 나머지 머신이 보다 빠르게 백업됩니다. 첫 번째 머신의 백업에 대한 인덱싱이 완료되었기 때문에 대부분의 데이터가 이미 중복 제거 데이터 저장소에 포함됩니다.

서로 다른 시간에 여러 머신 백업

다수의 머신을 백업하는 경우 시간에 따라 백업 작업을 분산시킵니다. 이렇게 하려면 다양한 스케줄로 여러 개의 보호 계획을 생성합니다.