DR센터(재해복구시스템) 구축 필요성 및 4가지 고려사항

 

DR(Disaster Recovery)센터 및 시스템이란 무엇인가?

 

전산실 내부구조
전산실 내부 구조

 

DR센터는 서비스를 운영하고 있는 전산센터(운영센터) 혹은 서비스에 재해가 발생하는 경우 즉각적인 서비스를 복구를 위한 Backup 플랜 인프라 구성을 의미한다. 정상적인 운영서비스의 경우에는 단순 Backup 플랜의 의미를 지니지만 실제 자연재해나 혹은 물리적, 기술적인 운영시스템의 결함이 발생하는 경우 즉시 사용가능한 자원을 뜻한다.

 

 

이에 따라 평소에는 운영시스템 보다 중요성이 떨어진다고 생각할 수는 있으나 서버, 스토리지, 복제솔루션, 데이터센터의 상면, 네트워크 구성 상태 등 전반적으로 운영시스템에 준하게 꾸준히 유지되어야 한다. 장애나 재해는 지금 바로 발생할 수 있으며 언제 어느때 발생할 것이라는 경고 없이 찾아오므로 매우 중요하게 관리되어야 한다.

 

흔히 Cold DR, Warm DR, Active DR 등의 용어로 표현하기도 한다.

 

  • Cold DR : RTO(Real TIme Objectives)가 약 24시간 이내인 경우를 의미힌다.
  • Warm DR : RTO(Real Time Objectives)가 약 3시간 이내인 경우를 의미하며 운영센터와 동일한 수준으로 구성한다.
  • Active DR : RTO(Real Time Objectives)가 0으로 DR센터 자원을 Active 상태로 항상 가용 운영하는 수준을 말한다.

 

DR시스템 왜 필요한가?

 

 

DR 센터 및 시스템은 운영센터 시스템에 대한 Standby(또는 Active) 시스템을 원격지에 구성하여 장애시 신속하게 서비스를 재개할 수 있도록 구성한 것을 말한다. 이는 운영하고 있는 서비스의 중요성에 따라 RTO(복구목표시간)를 설정하게 그 민감도에 따라 DR센터를 구성할 수도 혹은 구성하지 않을 수도 있다. 금융IT나 국내외 금융시스템의 경우 장애 또는 재해발생시 운영시스템의 데이터 및 인프라의 구성이 즉시 복구되어야 하므로 DR센터를 적극 구성하고 운영하고 있다.

 

운영시스템으로 트랜잭션이 발생하고 데이터가 변경하는 도중에 시스템에 재해가 발생할 수 있다. 그러한 경우 재해발생시점 직전까지의 거래의 기록은 보장되어야 하며 이에 따라 데이터의 정합성도 보장되어야 한다. 또한 수시로 들어오는 트랜잭션을 위해 빠른 시간안에 복구가 완료되어야 한다.

 

운영서비스의 중요성에 따라 DR센터와 시스템이 필요할 수도 혹은 그렇지 않을 수도 있다. 하지만 많은 사용자에게 보장되어야하고 혹은 보장하고 싶은 서비스의 경우 그 여력에 따라 대부분 DR시스템을 구성하고 있다. 

 

 

DR시스템 구축 및 운영시 고려해야할 사항은 ?

 

(1) 센터 구성의 방식

DR센터의 운영방침에 따라 Active-Active 구성 혹은 Active-Stand by 구성 등이 존재할 수 있다. 국외 IT회사의 경우 서비스 별로 운영센터와 DR센터(역시 운영센터라고 할수있다.)에 각각의 별도의 운영서비스를 구성하여 상호간에 백업채널을 구성하는 경우도 있다. 

 

(2) 운영센터와 DR센터간의 거리

주센터와 DR센터간의 거리가 중요한데 이는 재해발생시 담당자가 물리적으로 이동할 수 있는 시간도 고려되어야 한다. 또한 센터간의 거리는 재해의 종류에 따라 고려하는 범위도 달라진다. 예를들어 지진과 전쟁 등과 같은 사항을 고려한다면 센터간 거리가 길어야 동시에 두 센터가 무력화 되는 가능성을 그나마 줄일 수 있다. 

 

(3) 통신속도

 

 

위에서 언급한 센터간의 거리는 사실 통신속도에 더 영향을 미친다. Oracle의 RAC(Real Application Cluster)과 같은 기능은 같은 전산센터 안에서의 동시성을 보장하고 있으며 특정거리 이상 떨어지는 원격지에서의 데이터 정합성은 보장되지 않는다. 이에 따라 센터간 구성의 방식과 센터간의 거리와 함께 고려되어야 할 요소중의 하나가 통신속도이다. 이에 따라 Synchronized 구성을 할 것인지 Asynchronized 구성을 할 것인지 등도 고려하여야 한다. 다만 데이터베이스의 정합성은 서비스 운영에 있어 굉장히 중요한 부분이라고 할 수 있다. 이에 덧붙이자면 앞으로 5G 등 통신기술의 발달은 이러한 원론적인 문제를 해결해줄 것이다.

 

(4) 조직 구성 및 유지비용

정상적인 서비스를 잘 운영하고 있는데 비정상적인 장애 또는 비정상적인 상황을 위해 DR센터와 시스템을 구성한다라는 것은 조직 구성 및 유지비용 측면에서 비효율 적일 수 있다. 이에 따라 서비스의 중요성에 따라 결정되어야 할 부분이지만 별도의 센터 관리를 위한 조직 인력이 필요하고, 전기 또는 다양한 설비비용 등이 필요하다라는 것을 고려해야 한다.

+ Recent posts