[서버인프라] 서버의 정기적인 패치 또는 리부팅 작업 : PM(Prevention Maintenance)

 

서버의 안정적인 운영을 위해 서버 담당자는 정기적인 장애예방 활동을 수행한다. 각종 하드웨어나 소프트웨어 등의 EOS(End of Service)를 확인하기도 하고 최신 버전의 펌웨어, 패치 등의 내용을 검토하고 적용하기도 한다.

 

IT는 멈춰있지 않고 지속적으로 빠르게 변화하고 있다. 이에 따라 해당 기술셋을 직접 운영중인 서비스에 적용하지 않더라도 생태계에서 본인들의 서비스와의 상호작용 과정중에 기존 서비스가 동작하지 않을 수가 있다. 또한 고객들의 신규 서비스를 제공하거나 그동안 고민이었던 성능적인 이슈나 기능적인 문제들을 신규 패치 적용으로 해결할 수 도 있다.

 

 

기능개선뿐만 아니라 언제 찾아올지 모르는 장애를 예방하는 기능도 수행한다. 시스템을 천천히 총 점검하기도 하고 오랫동안 서비스하던 하드웨어의 전원을 리부팅하여 각종 전기시설 점검 또는 하드웨어 상의 불필요한 적재 메모리 등을 초기화 하기도 한다.

 

 

시스템의 정기적인 패치 적용

 

시스템 패치 적용 순서
시스템의 정기적인 패치(업그레이드) 적용 순서

앞서 설명한 바와 같이 시스템이 계속 변화함에 따라 장애예방을 위해 주기적으로 패치를 수행해야 한다.

 

  • 각종 장비의 펌웨어를 업그레이드 하거나 OS, Disk, DBMS, WAS 이외의 각종 S/W 패치도 존재
  • 패치 적용시 테스트 서버에 우선적으로 적용할 것을 권고(단계적 수행)
  • 패치간 dependency 이슈가 없는지 확인이 필요

 

또한 패치 적용에 있어 가장 중요한 부분은 적용 후 기존 운영중인 서비스에 대한 기능점검이다. 새로운 패치를 적용함에 따라 전혀 다른 영역에서 새로운 문제를 유발하기도 한다. 이에 따라 테스트 시스템에 우선 적용 후 상당시간이 지난 이후에 운영시스템에 적용하는 방법등이 활용된다. 대신 테스트시스템과 운영시스템의 환경도 항상 동일한 수준으로 운영되어야 한다. 이는 서버 운영자의 추가적인 업무 부담이 있을 수 있으나 안정적인 서버 인프라 운영을 위해서는 필수라고 할 수 있다.

 

 

또한 문제가 발생한 이후에 전체 구조를 정확하게 판단하고 트러블 슈팅하는 능력도 매우 중요하다. 모든 패치는 기능 개선과 장애 예방을 위해 수행되지만 정말 예상치 못한 문제를 야기할 수 있기 때문에 운영체제에 대한 개념에서 부터 네트워크, 디스크, 통신, 프로그래밍, 컴파일러 등의 전체영역에 걸친 시스템 구조와 흐름을 읽을 수 있는 능력이 필요하다.

 

정기 PM(Prevention Maintenance) 작업

 

가끔 은행 또는 게임 사이트 등에서 운영서비스의 일시중단을 팝업으로 알리고 시스템 작업을 수행하는 것이 바로 PM 작업을 위한것이다. 정기적인 점검을 통해 문제가 발생하기 이전에 사전에 대비하는 작업들을 말한다. 평소보다 세심하게 시스템을 점검하고, 운영중에 시도해볼 수 없었던 쿼리를 수행한다거나 시스템 점검 쉘을 수행하는 등의 절차가 이에 포함된다.

 

앞서 포스팅한 자료를 참고하면 IT 장애 자체를 100% 막을 수 는 없으나 이를 최소화 하기위해 예방하는 과정이라고 할 수 있다. 아래 포스트를 참고하면 IT 시스템 장애에 관련하여 조금더 세부적인 내용과 생각들을 보실 수 있다.

 

 

IT 정보시스템 장애 예방 및 대응에 대한 생각

IT정보시스템 장애 예방 및 대응에 대한 기본 개념 및 생각 정보시스템을 개발하고 운영하는 사람들은 해당 서비스의 운영시간에 대해 보통 집착하게 된다. 그 서비스의 중요성과 성격에 따라 ��

travislife.tistory.com

전산시스템 장애 후 이를 복구하는 것은 수동적인 자세이며 이러한 정기PM 작업등을 통해 적극적으로 장애를 예방해야 한다. 장애가 예상되거나 문제를 일으킬 소지가 있는 부분을 사전 대응하며 일반적으로 서버를 리부팅 하는 작업을 수행한다. 이후 서비스 점검은 당연 필수이며 일반적으로 아래 참고 자료와 같이 시스템을 가동하고 종료하는 순서도 매우 중요하다.

 

시스템 리부팅 작업 순서
시스템 리부팅 작업시 서비스 가동 또는 종료 순서

 

 

+ Recent posts