최근 백업에서 빼놓을 수 없는 중요한 기술이면서 실제 비용절감에도 필수적인 기능이 되고 있는 중복제거에 대해 소개해드리고자 합니다.
먼저 중복제거가 무엇인지 개요부터 알아보도록 하겠습니다.

중복제거란?
하나의 파일을 작은 단위로 나뉘어 유니크한 것을 제외하고 나머지만 저장하는 기술

<중복제거 저장소의 기본 원리>


중복제거의 정의나 중복제거에 대한 표현에 대하여, 쉽게 설명을 드리기 위해서 예를 들어 보도록 하겠습니다.

레고에 중복제거 저장소를 비유해서 설명드리자면,
하나의 레고 완성품에는 여러가지의 블록이 들어가게 됩니다. 조립하다 보면 같은 블록을 여러 개 사용하기도 하고 하나의 블록만 사용하기도 하지요.

서버에 존재하는 각 파일들이 하나의 레고 완성품이고, 중복제거의 작은 단위를 레고의 하나의 블록이라고 생각하고 위의 말을 다시 재풀이 한다면
“하나의 레고완성품을 분해하여 각 블록의 1개씩만 저장하고 나머지는 숫자로 표기하는 기술”

<레고 조립설명서 : 각 블록들의 모양과 개수가 표기되어 있다>

레고 설명서와 앞에 설명한 중복제거 저장소의 표, 어떻게 보면 비슷해 보이지 않나요?
이렇게 중복제거 저장소는 여러 개의 파일을 전부 분해해서 재료별로 저장해두고, 하나의 설명서를 포함하여 해당 파일을 조립하는 방법을 기록해 두어 저장소를 가장 최적화하여 사용할 수 있도록 도와주고 있습니다.
하지만 최적화 한다고 해서 전부 좋은 것만 있을 순 없지요. 중복제거 저장소의 장점과 단점을 한번 알아 보겠습니다.

<장점>
첫번째 장점 : 저장소를 최적화해서 비용 및 리소스 절감
예를들어 같은 레고완성품을 여러개 저장해야 한다고 하면 100개의 레고완성품을 저장하든 10개를 저장하든 소모되는 저장소의 용량은 똑같습니다.
왜? 위에 설명한바와 같이 A블럭 X 3이 A블럭 X 6으로만 표기가 변경될 뿐이니까요
절약된 저장소의 리소스는 실질적인 비용 절감으로 이어지게 됩니다.

두번째 장점데이터보안 효과
중복제거 저장소만의 장점이자 단점이라고 볼 수도 있습니다만, 데이터가 블록화 되어 있어서 일부만 가지고는 원본 파일을 확인할 수 없습니다. 때문에 백업된 데이터는 일반적인 방법으로 해당 파일을 열어보기가 어렵습니다. 주로 설치된 솔루션이나 또는 별도의 브라우징을 통해 확인이 가능합니다.

<단점>
빛이 있으면 그림자가 있듯, 중복제거 저장소도 단점이 있습니다.

첫번째 단점: 저장되어 있는 파일이 1개라도 손상됐을 때 발생할 수 있는 데이터의 신뢰성 문제
위에 설명한 바와 같이 A블럭 X3 이렇게 저장되어 있는데. A블럭에 손상이 있다면. 해당 A블럭을 사용하는 모든 파일은 손상됩니다. 
레고 조립할때 해당 부품이 없으면 완성할 수가 없죠. 동일합니다. 해당 파일을 만들수 없어 결국 손상된 파일이 됩니다.
또한 이렇게 한번 블럭이 부서지면 해당 저장소 전체를 신뢰하기 어려워 집니다. 디스크는 한번 고장나기 시작하면 연쇄적으로 고장나기 때문이죠

두번째 단점: 비교적 긴 저장과 복원 시간 
쉽게 설명하면 일반 저장소에는 레고(파일)를 완성품 그대로 가져다 두면 되지만 중복제거 저장소는 해당 레고를(파일) 분해해서 정리해서 보관하기 때문에 부수고 정리하는 시간이 필요하고, 저장소에서 레고(파일) 꺼낼 때는 역으로 해당 부품을 모아서 완성품을 만들어서 꺼내야 하기 때문에 별도의 시간이 더 들어 갑니다(실제 레고를 정리 할 때 분해, 조립하는 시간이 별도로 추가로 들어는 것과 같음). 다만 백업 시에는 중복제거를 통해서 백업되는 데이터 용량이 줄어드는만큼 시간이 줄어드는 경우가 생깁니다.

그래서 보통 장기 보관용에 중복제거 저장소를 사용하고 주로 사용하는 용도는 백업 저장소로 많이 사용합니다.
백업 저장소의 용량은 매 백업 시, 해당 타겟 서버의 용량만큼 사용하기 때문에 해당 용량을 축소 시켜야 하기 때문이죠

이제 마지막으로 지금까지 중복제거 저장소를 설명할 때 받은 질문 중 인상 깊었던 질문들에 대해 팩트체크를 하고 이 시간을 마치도록 하겠습니다.

<팩트체크>


1. 중복제거 저장소에 저장하면 저장소 공간을 절약 할 수 있다?
맞습니다.  저장소 공간을 절약 할 수 있습니다.

2. 중복제거 저장소의 증가량을 예측할 수 있다?
알 수 없습니다. 해당 파일이 어떤 블록을 사용하는지 모르기 때문입니다.
단지, 기존 파일 용량보다 적게 저장된다 정도가 맞습니다.

3. 중복제거와 압축은 같은 말이다?
다릅니다. 중복제거는 위에 설명대로 레고를 부셔서 블록화 시켜 저장하는 것이고
압축은 레고의 빈 공간을 채우는 것입니다. 두개는 다른 원리가 적용됩니다.

4. 중복제거는 빠르다?
부수고 만드는 과정이 추가되기 때문에 느립니다. 하지만 백업 시에는 환경에 따라서 더 빠를 수 있습니다.

5. 무조건 중복제거를 사용하는 것이 좋다?
하지만 OS백업을 진행할 때에는 중복제거 저장소는 높은 효율성을 가지나 
Mail 백업의 경우에는 효율성이 높지 않으니 잘 선택 해야 합니다. 

6. 중복제거 스토리지보다 중복제거 솔루션이 더 좋다?
결국 중복제거 스토리지 라는 것은 일반 스토리지에 솔루션을 탑재한 ALL-In-ONE 제품일 뿐입니다.

중복제거에 대해서 가질 수 있는 의문점들까지 짚어봤습니다. 중복제거에 대해 가지고 계셨던 의문점들이 해소되셨기를 바라며, 혹시나 더 궁금하신 사항들에 대해서는 아이비인포텍으로 연락주시면 도움을 드릴 수 있도록 하겠습니다.
홈페이지: http://www.ibinfo.co.kr/
연락처: 080-860-3114