1. 서버 이중화(HA- High Availability) 솔루션의 필요성.

많은 고객사의 IT관리자 분들은 현재의 IT서비스의 연속성을 지속적으로 유지하는 방안에 대한 고민을 한번쯤 하게 된다. 그에 따라, 서버 다운타임 최소화, 백업, 가용성 유지 등으로 정보 검색을 하다 보면, 마지막에 만나게 되는 단어가 “서버 이중화”, “서버 HA”등이 될 것이다. HA(High Availability)를 간단히 한국어로 직역을 하자면 “고가용성” 이라고 말하기도 하는데, Wiki의 정리 내용은 아래와 같다.

“고가용성(高可用性, HA, High Availability)이란 서버와 네트워크, 프로그램 등의 정보 시스템이 상당히 오랜 기간 동안 지속적으로 정상 운영이 가능한 성질을 말한다. 고(高)가용성이란 “가용성이 높다”는 뜻으로서, “절대 고장 나지 않음”을 의미한다. 고가용성은 흔히 가용한 시간의 비율을 99%, 99.9% 등과 같은 퍼센티지로 표현하는데, 1년에 계획 된 것 제외 5분 15초 이하의 장애시간을 허용한다는 의미의 파이브 나인스(5 nines), 즉 99.999%는 매우 높은 수준으로 고품질의 데이터센터에서 목표로 한다고 알려져 있다. 하나의 정보 시스템에 고가용성이 요구된다면, 그 시스템의 모든 부품과 구성 요소들은 미리 잘 설계되어야 하며, 실제로 사용되기 전에 완전하게 시험되어야 한다.”

“고가용성 솔루션을 이용하면, 각 시스템 간에 공유 디스크를 중심으로 집단화 하여 클러스터로 엮어지게 만들 수 있다. 동시에 다수의 시스템을 클러스터로 연결할 수 있지만 주로 2개의 서버를 연결하는 방식을 많이 사용한다. 만약 클러스터로 묶인 2개의 서버 중 1대의 서버에서 장애가 발생할 경우, 다른 서버가 즉시 그 업무를 대신 수행하므로, 시스템 장애를 불과 수 초에서 수 분 안에 복구할 수 있다.”

위의 내용으로 간단히 HA솔루션을 설명하면, 서버 2대를 통해 한쪽 서버가 장애 시 다른 한쪽 서버가 해당 서비스를 대신 운영하여 가용성을 높이는 솔루션이라고 생각 하면 되겠다.

2. 이중화 HA 솔루션이 갖추어야 할 기본 기능
HA 솔루션은 서비스 가용성을 높이기 위한 솔루션으로 기본적으로 아래와 같은 기능을 반드시 갖추어야 한다.
  • 데이터 복제 기능
    기본적으로 HA 구성된 서버 중 1번 서버가 장애가 발생시, 2번 서버가 대상 서비스를 바로 서비스를 하기 위해서는 양쪽의 데이터는 항상 100% 동일 해야 하는 무결성을 보장 해야 한다. 이러게 DATA를 동일하게 맞추기 위해서는 데이터 복제 즉, Data Replication 기능이 반드시 필요하다.
  • 장애 감시 기능
    앞에서 설명한 서버 HA구성시 1번 서버는 서비스 운영을 맞게 되며, 2번 서버는 1번 서버가 장애 발생시 서비스를 운영하기 위한 대기 생태로 구성이 된다. 이러한 구성은 Active – Stand By HA 구성이라고 한다. 그렇다면, 장애 발생을 감지하기 위한 소프트웨어 로직이 필요하다.

장애 발생은 크게 세가지 관점에서 볼 수 있다.

  1. 네트워크 장애
  2. OS 및 서비스 프로그램(프로세스) 장애
  3. 서버 하드웨어 장애

상기와 같은 장애를 감시할 수 있는 장애 감시 Agent는 각 서버에 설치가 되며 이러한 Agent는 1번 서버와 2번 서버에 각각 설치되어, 자기 자신의 서버의 장애 포인트 감시 및 크로스로 1번 서버는 2번 서버를 감시, 2번 서버는 1번 서버를 상호 감시(Heartbeat Check) 하여 고가용성을 유지하게 된다.

이러한 로직은 서비스의 HA(고가용성)을 유지하기 위해 반드시 필요하며, 현재 운영중인 서비스 중인 1번 서버의 상기 문제 발생시 2번 서버로 서비스가 자동전환(Fail-Over) 되기 위해 필수적인 기능이다.


3. HA솔루션 기능의 장단점.

  • HA솔루션의 장점은 필요시 위에서 말한대로 서비스의 연속성을 보장 할 수 있다는 것이다. 그 이하도 그 이상도 아니다.
  • 단점은 데이터가 실시간 복제가 된다는 것이다. 이것이 무슨 말이냐? 앞에서는 반드시 필요한 기능이라고 하지 않았냐? 라고 반문할 수 있지만, 답은 아래와 같다.

    실시간 DATA가 복제가 된다는 의미는 실수로 반영된 데이터 또는 바이러스 감염된 파일도 복제가 되어 2번 서버의 시스템 또한 감염 및 전이 될 수 있다는 것이다.

    이러한 단점을 보완하기 위해서는 백업 솔루션을 추가 도입을 해야 할 수 있다. 즉, 최종적으로 DATA 나 시스템이 훼손 되었을 때는 해당 문제가 2대의 서버에서 동일하게 발생되므로, 시스템 및 DATA를 최종 보존을 하고 싶다면 백업을 고려 해야 한다.

추가적으로, 많은 분들이 HA가 백업의 대안 또는 더 높은 기술로 알고 있지만, 그것을 잘못된 생각이다. 정확하게는 각 솔루션 별 추구 하는 최종 목적이 다르다고 생각하면 되겠다. HA는 서비스의 연속성을 유지하기 위한 최적의 솔루션이며, 백업 솔루션은 어떠한 상황에서도 원하는 데이터를 복원 하여 데이터의 Lift Cycle을 보장 해줄 수 있는 솔루션이다.


4. 다양한 HA 솔루션에서 어떠한 솔루션을 선택 해야 하는가?

HA 솔루션은 많다. 그리고 기본 컨섭은 동일하다. 그렇다면 어떤 것을 우선적으로 비교하고 도입을 검토 해야 할 것인가?? 뻔한 얘기지만 나열해 본다면 아래와 같다.


  • 각 벤더 별 제품 기능 및 제품 관리 UI 비교
    HA 솔루션의 기본 기능은 동일 하나, 각 제품별 특화된 기능은 존재한다. 이러한 특화된 기능이 실제적으로 우리 회사의 환경에 적합한지를 검토 해야 한다. 그리고, 솔루션의 원활한 운영을 위한 User Interface 또한 원격 데모 등을 통해 직접 확인을 해야 한다.

    실제적으로 좋은 기능이 모두 된다고 대부분 표현을 하지만, 되지 않거나 어렵게 구현되는 경우가 많기 때문이다.

  • 제품 Vender 社의 연혁.
    각 솔루션 별 선두 벤더와 선두를 뺏으려는 벤더가 있기 마련이다. 제품의 완성도는 단기간에 할 수 없으므로, 벤더사의 연혁과 제품 개발여력 및 인지도 등 다양한 부분을 꼼꼼하게 살펴 봐야 한다. 이러한 꼼꼼함이 제품 도입 후 장기간 해당 제품의 운영의 만족도를 높일 수 있다.

  • 파트너사의 연혁
    두번째, 아니 첫번째로 중요하게 살펴 봐야 하는 것은 파트너사의 연혁이다. 파트너 사에서 컨설팅 능력 및 기술 지원 능력은 고객사에서 초기 구축 및 지원을 받을 때 매우 중요한 부분이다.

  • 기술지원의 체계
    국내 HA솔루션 관련 업체 분류는 세 분류로 나뉠 수 있다. HA솔루션의 세일즈 및 기술지원을 모두 할 수 있는 파트너와, 컨설팅을 주로 하는 파트너, 그리고 일반 리셀러로 분류 할 수 있다.

    이러한 세 분류의 파트너와의 미팅 시 꼭 확인 해야 할 부분은 기술 지원의 체계는 어떻게 되어 있는지 상세 확인이 필요하다.

    1. 납품 후 무상 유지보수 기간
    2. 유지보수 지원 레벨(1년 24시간 장애 접수 및 지원, 또는 근무시간내 지원)
    3. 레벨에 따라 벤더 또는 파트너의 전용 기술센터 운영 여부

  • 도입사례
    대부분 HA 솔루션별 도입사례(레퍼런스)는 많이 보유하고 있다. 따라서, 각 제품의 레퍼런스 중 자신의 회사 환경과 가장 비슷한 사례에 대해 미팅을 하면서 구성 및 운영에 대한 부분을 체크하여 해당 제품이 회사 환경에 최종적으로 적합한지 검토 한다.

  • 가격 비교
    모든 제품이 그렇지만, HA솔루션도 각 경쟁사별 제품별 가격차이가 있다. 여기서 중요한 것은 무조건 싼 것이 아니라, 1차적으로 자신의 회사에서 적합한 기능을 가지고 있는 제품 몇가지를 선정 후 최종 각 제품별 가격을 비교하여 회사의 예산에 최적화 된 제품을 선택 하도록 한다.

여기 까지가 제가 알려드리는 HA솔루션에 대한 정보이다. 저도 본업이 세일즈다 보니 마지막에는 약(솔루션)을 판매해야 하는 숙명적 과제를 가지고 Rose Datasystems 社의 Rose HA 라는 제품을 설명 드리고자 한다.


5. Rose HA의 Vender 社 소개 및 타제품과의 차별 우위 점.


  • 제품 Vender 社 – Rose Datasystems 소개Rose Datasystems은 마이크로 썬(SUN)으로 부터 독립하여 1993년 3월 미국 실리콘 벨리에 Rose Datasystems Inc. 설립후 20년 이상 Windows, Linux, Unix 플랫폼의 데이터 및 서비스 보호는 물론 재난복구 확장에 이르는 HA/DR IT Continuity 통합 솔루션을 제공하는 글로벌 소프트웨어 벤더로 2001년 윈도우와 리눅스 환경에서 실시간 데이터 복제 기술과 데이터 재해 복구 솔루션인 Rose 제품을 출시했다. 또한 전세계 최대 소프트웨어 R&D 센터를 운영하고, 제품에 대해 고객사별 요구사항에 대해 별도 커스터마이징 서비스 제공하고 있으며, 미국, 영국, 독일, 일본, 대만, 중국, 홍콩, 인도 등에 12만 명의 고객을 가진 가장 안정적인 HA 소프트웨어인 Rose HA를 개발 공급하고 있다. 산업별로는 공공, 금융, 제조, SMB 전 영역에 걸쳐 제품 설치 및 지원이 광범위하게 이루어지고 있으며 2015년 현재 전세계에서 단일 HA 소프트웨어로는 가장 많은 고객을 가진 글로벌 HA 솔루션 Vender社 이다.(+150,000 copy 라이선싱 )
  • Rose HA 의 타 경재 제품과의 차별 우위점.
    하드웨어 Raid 기술을 통한 디스크 장애시 복구에 대한 가용성 높여주는 기술을 HA 1세대라고 표현 한다면, 1번 서버의 데이터를 2번 서버로 복제 및 장애 발생시 수동 서비스 2번 서버로 절체(전환) HA를 2세대 라고 한다. 3세대 HA는 이러한 서비스 수동 전환을 장애를 실시간 감지 및 2번 서버로 서비스 자동 전환(Auto Fail Over) 을 해줄 수 있고, 4세대 HA 솔루션은 이런 기능을 모두 포함하고, 아래와 같은 기능을 추가적으로 탑재된 솔루션을 일컫는다.
    • Rose HA에 탑재된 4세대 HA 솔루션의 추가 기능

      사전 시스템 Hang 대처
      System “Hang”이란 프리징(freezing) 또는 “응답없음” 으로 표현하기도 하는 상태이며, 시스템이 입출력에 대한 아무런 반응을 하지 않는 상태로써 시스템 운영이 불가능한 상태를 의미한다. 즉, 응용 프로그램의 프로세스는 살아 있지만, 서비스가 불가능한 상태이다.
      이러한 상태일 때 지금까지 HA솔루션들은 이를 감지하지 못한다. 그 이유는 HA 솔루션의 감시 Agent도 OS(운영체제)에 기반하여 동작되기 때문에 시스템 Hang이 발생되면, HA Agent 역시 Hang 상태가 된다. 이는 2번 서버로 Fail Over 하지 못하는 결과를 가져오고, 결국 사용자가 Hang 상태 시스템의 전원을 Off 하면 그때서야 2번 서버에서 서비스를 재 기동하게 된다.

      그러나 Rose HA에서는 사전 시스템 Hang 대처 기능을 통해 이런 상황이 발생하기 전에 2번 서버로 Fail Over 하여 서비스 연속성을 제공 할 수 있다.
      여기에 한 발 더 나아가 “왜?” Failover가 일어났는지 원인분석이 가능하도록 레포팅을 제공한다.

      즉, 원인분석 레포팅을 보면 이제는 누가 문제를 일으켰었는지 쉽게 알게되어 벤더들간의 시시비비를 가리는데 수월해 진다…. 흐흐흐, 딱~~~ 걸렸어 !!!


    • 서비스(Process)에 대한 Deep Check 기능이번에는 앞서 시스템 Hang이 아닌 응용프로그램에 대한 Hang을 처리하는 기술을 제공한다. 모든 HA 솔루션들은 서비스(Process)가 Online 인지? 아니면 Offline 인지? 를 모니터링하는 구조다. 따라서 서비스(Process)가 Online이면 정상이라고 판단한다. 이것이 문제다.

      서비스(Process)는 Online 되어있다 하더라도 멍~~~~한 경우가 발생하기 때문이다. 즉, 응용프그램 Hang이다. Rose HA는 이와 같은 상황에 대처하기 위해 실제 응용프로그램이 정상 동작하는지 까지 2단계 검증체계를 제공한다. 이것이 바로 Deep Check 기술이다.

    • DATA 시점 백업 및 복구(Point-In-Time Rollback) 기능
      앞서 기존 HA솔루션의 단점을 말씀 드렸 듯이, 데이터 복제 과정에서 1번서버의 손상된 데이터 또는 바이러스에 감염된 데이터 역시 실시간으로 함께 2번서버로 복제가 되는 문제를 해결 할 수 있는 솔루션이 필요하였고, Rose HA 에서는 DATA 시점 백업 및 복구(Point-In-Time Rollback) 기능을 통하여 손상 이전의 시점으로 DATA를 복구 시킬 수 있다.


    • 통합 모니터링 관제
      기존 HA솔루션 대부분은 2대의 서버에 대한 가용성을 높이는 부분에 기능이 맞추어져 있다. 그러나 예전과 다르게 서버 환경의 복잡성이 높아지고 고가용성을 원하는 서비스가 많아 짐에 따라, 다수 구성된 HA 솔루션 환경의 서비스 모니터링 요구도 높아지게 되었다. 그에 따라 Rose HA 에서는 HA Control Center 라는 모니터링 솔루션을 제공하여 관리의 효율성을 높였다.



6. 마치며….

언젠가는 꼭 써야지 했던 HA솔루션 소개 포스팅을 마치게 되어, 밀린 숙제를 다한 상쾌한 기분이다. 상업적인 내용이 있는 부분은 대해서는 이해를 부탁드리며 기존에 다 알고 계신 분도 있으시겠지만, HA 솔루션이 이렇게 변화되고 있다는 트랜드 정도로 생각 해주시길 바란다. 다음이 언제가 될 지 모르겠지만, HA 솔루션 보다 가용성을 높이는 FT(Fault Tolerance) 솔루션 즉, 고가용성 무중단 솔루션에 대해 소개해 보도록 하겠다.(희망사항)

끝으로, 긴 내용을 읽어 봐주신 여러분께 감사드립니다. ^^

아이비인포텍(주)  윤주병 대표