Incident Management - 클라우드 & 인프라 | AI Insight Note

인시던트 관리는 프로덕션 장애 발생 시 신속한 탐지, 대응, 복구, 사후 분석을 체계화하는 프로세스다. 평균 복구 시간(MTTR)을 최소화하고 반복 장애를 예방하는 것이 목표다.

인시던트 단계

1. 탐지 (Detection)
   - 알림: PagerDuty, Opsgenie
   - 모니터링: Prometheus, Datadog

2. 트리아지 (Triage)
   - 심각도 분류 (SEV1~SEV4)
   - 인시던트 지휘자(IC) 지정

3. 대응 (Response)
   - 영향 범위 파악
   - 고객 커뮤니케이션
   - 완화 조치 적용

4. 복구 (Recovery)
   - 정상 상태 확인
   - 모니터링 강화

5. 사후 분석 (Post-mortem)
   - 근본 원인 분석
   - 재발 방지 액션 아이템

심각도 기준

심각도	영향	대응 목표
SEV1	전체 서비스 중단	즉시 (5분 내)
SEV2	주요 기능 장애	15분 내
SEV3	부분 기능 저하	1시간 내
SEV4	소수 영향, 워크어라운드 있음	다음 영업일

PagerDuty 통합

python

import pdpyras

# 알림 발송
session = pdpyras.APISession(api_key)
incident = session.post('/incidents', json={
    'incident': {
        'type': 'incident',
        'title': 'API 응답 시간 임계치 초과',
        'service': {'id': 'PXXXXXX', 'type': 'service_reference'},
        'urgency': 'high',
        'body': {'type': 'incident_body', 'details': 'P99 latency > 5s'},
    }
})

Incident Management인시던트 관리

인시던트 단계

심각도 기준

PagerDuty 통합

관련 개념

관련 노트

스케일다운Scale Down

스케일업Scale Up