ITSM_ITIL

[ ITIL 4 이해하기 ] 운영관리를 위한 프랙티스 1, 모니터링 및 이벤트 - ITIL Foundation

_랄프_ 2022. 9. 3. 05:39
728x90

ITIL의 핵심은 사실 운영(operation)이다. 운영은 제품과 서비스가 종료되지 않고 살아있는 한 그리고 고객에게 계속 제공되는 한 계속 활성화 상태이다. 또한 고객과의 상호작용이 주로 운영의 영역에서 발생하기 때문에 고객은 다른 어떤 프랙티스보다도 이 운영에서의 서비스를 기억할 수밖에 없다.

 

운영 프랙티스는 서비스의 전체 시간 중 가장 많은 시간을 차지하며, 인력 면에서도 보통 가장 규모가 크다. 그리고 앞서 언급한대로 고객은 운영 단계의 성과를 통해 서비스에 대한 인식(perception)을 형성하는 경향이 있다.

 

운영의 이전 단계인 전략 수립, 설계, 구현, 전환이 모두 완벽하다면 사실 운영 역시 문제가 없을 것이다. 하지만 현실적으로 그런 일은 결코 있을 수 없다. 전략은 시간에 따라 변하고, 설계 역시 변경되거나 기술적인 한계에 부닥칠 수 있고, 전환에서는 다양한 이슈가 발생하기 마련이다.

 

이번에 살펴 볼 운영관리 프랙티스는 모니터링 및 이벤트이다.

 


 

모니터링 및 이벤트 Monitoring and event management

 

서비스를 구성하는 여러 CI가 정상적으로 작동하지 않는다면 최대한 빠르게 복원하는 것이 중요하다. 

모니터링과 이벤트 관리 프랙티스의 정의는 다음과 같다.

 

모니터링 및 이벤트 관리 프랙티스

"The purpose of the monitoring and event management practice is to systematically observe services and service components, and record and report selected changes of state identified as events"

"모니터링 및 이벤트 관리 프랙티스의 목적은 서비스와 서비스의 구성요소를 체계적으로 관찰하고 이벤트로 식별된 변경상태를 기록하고 보고하는 것이다"

 

모니터링 및 이벤트의 목표는 비정상적인 상태를 최대한 빨리 인지하는 것이다.

모니터링되는 CI는 보통 인프라, 어플리케이션, IT보안, 서비스 및 비즈니스 프로세스가 포함되는데, 그러나 각 CI를 일일이 다 모니터링하는 것은 의미가 없다. 서비스 작동에 직접적으로 관여하는 중요한 CI 중심으로 모니터링을 해야 하며 장애 발생시 취해야 하는 행동의 우선순위를 정하는 것도 중요하다. 

 

이벤트의 정의

이벤트

"Any change of state that has significance for the management of a service or other configuration item (CI)"

"서비스 또는 기타 CI(구성항목) 관리 상 중요한 어떤 상태의 변경이다"

 

즉 이벤트는 상태의 변경이다. 배가 고픈 상태에서 밥을 먹은 후 배부른 상태가 되는 것처럼 CI 의 상태가 변경되는 것이 이벤트이다. 사실 이벤트 자체가 중요한 건 아니지만 그 이면에서 파악해야 하는 것이 중요하다. 가령 사용자가 서버에 로그인한 것 자체는 특이한 것이 아니나 해킹으로 의심되는 IP에서 그랬다면 신중히 살펴보아야 할 것이다.

 

이벤트는 중요도에 따라 다음과 같이 분류할 수 있는데, 이러한 분류에 대한 정해진 기준은 없다. 고객과 합의하기에 달려있다.

 

 

반응형

 

 

Exception 이벤트

 

예외는 오류(error)를 뜻한다. 뭔가 잘못된 상태로, 가장 주의를 가져야 하는 이벤트이다. 보통 긴급조치가 필요한 상황이다. 예외 이벤트로는 다음과 같은 것들이 있다.

 

 - 서버에 접속이 불가함

 - 하드 디스크 공간이 임계값을 초과함

 - 관리자가 잘못된 비밀번호로 로그인을 시도함

 - PC서 악성코드가 발견됨

 

Warning 이벤트

 

안 좋은 상황이 실제 발생하기 전에 주의하라는 경고이다. 뭔가 조치를 하지 않으면 잘못된 방향으로 갈 것이다. 이는 사전 예방적인 차원에서 에러와 서비스 다운타임을 방지하는 것이므로 중요하게 취급되어야 한다.

 

 - 메모리 사용량이 임계값에 근접하고 있음

 - 어플리케이션이 정상보다 느리게 실행되고 있음

 - 특정 트랜잭션의 시간이 한도를 벗어났음

 - 데이터센터의 온도가 비정상적임

 

Informational 이벤트

 

비정상적인 상태가 아닌 정보성 이벤트이다. 이는 마치 우리가 온라인으로 구매를 하면 배송상태가 변경될 때마다 알림을 받는 것과 같아서 당장 어떤 액션을 할 필요가 없는 것들이다. 그러나 이런 알림을 안 받으면 좀 불안해질 수도 있다.

 

 - 사용자가 서버에 로그인했습니다.

 - SharePoint 드라이브에 생성된 새 폴더

 - 응용 프로그램에서 일괄 작업을 처리했습니다.

 - 하드웨어 기술자가 데이터 센터에 입장했습니다.

 

이벤트를 조건에 따라 분류하고 제대로 설계하는 것이 중요한 이유는 이와 같은 정보성 이벤트가 오류나 경고성으로 잘못 식별되면 담당자는 자다가 호출받을 수도 있기 때문이다.

 

 

728x90

 

 

ITIL 이전 버전까지 이벤트 관리는 상대적으로 중요도가 낮았고 모니터링 역시 이벤트 관리의 일부분으로 취급되었다. 관리의 범위가 일부 활동으로 제한돼 있었으며 대부분 도구를 통해 이루어졌다. 그러나 ITIL 4에서는 활동의 폭이 커졌다고 할 수 있다.

 

모니터링 및 이벤트 관리 프랙티스에서 하는 주요 할동은 다음과 같은 것들이 있다.

 

모니터링 전략

모니터링은 도구를 통해 수행되는 활동이다. 물론 도구는 라이선스(비용)가 있기 때문에 모든 CI를 모니터링할 수는 없다.  따라서 모니터링 전략을 수립하여 중요도 및 비즈니스 영향도를 기반으로 모니터링할 CI와 서비스를 선별해야 한다.

 

모니터링 설계

 

이벤트 유형을 식별한다. 그리고 예외 및 경고 이벤트에 대한 임계값을 정의한다. 임계값은 조치에 대한 부분을 고려해야 하는데, 가령 하드디스크가 95%일 때  경고 이벤트가 발생한다면 조치하는 데 시간이 충분하지 않을 수 있으므로 더 낮은 수치로 정하는 것도 가능하다.

 

정책 관리

 

정책이라 함은 가령, 서버의 하드디스크 용량 경고등이 켜졌을 때 서버팀에 알림을 보낼지, 아니면 자동으로 특정 우선순위의 인시던트를 발행하고 담당을 할당할지에 대한 결정을 하는 것이다.

 

모니터링 도구 구현

 

모니터링 도구로는 Splunk나 Nagios 같은 것이 있다. 모니터링에는 CI에 내장된 기본 모니터링과 같은 passive 모니터링과, 앞서 말한 Splunk 처럼 1분마다 서버에 ping을 보내 응답이 없으면 이벤트를 발생시키는 식의 active 모니터링이 있다. 네트워크가 불능이라면 passive 모니터링은 이벤트를 보낼 수 없지만 active 방식에서는 가능하다.

 

프로세스 구현

 

이벤트 관리 프로세스는 모니터링 도구의 관리와 프로세스 효율성을 위한 프레임워크를 제공한다. 또한 이 활동을 통해 프로세스의 역할과 책임도 식별하며 접근권한을 분류한다.

 

 

ITIL의 프랙티스 대부분이 역할과 사람 중심으로 자동화는 반복작업과 작업의 효율화를 위해 사용하는 데 반해 모니터링 및 이벤트 관리 프랙티스는 이와 반대로 자동화가 핵심이다. 도구와 자동화 없이는 제대로 운영될 수 없다. 앞서 언급한 대로 모니터링은 passive와 active가 있으며 passive 모니터링에서 이벤트 정보는 인시던트 발행 등 추가적인 처리를 위해 active 모니터링 도구에 제공되기도 한다.

 

 

SVC 활동에서 모니터링 및 이벤트 관리의 기여도, 출처 : ITIL Foundation, ITIL (ITIL 4 Foundation)

 

 

 

728x90
반응형