인시던트 관리는 프로덕션 장애 발생 시 신속한 탐지, 대응, 복구, 사후 분석을 체계화하는 프로세스다. 평균 복구 시간(MTTR)을 최소화하고 반복 장애를 예방하는 것이 목표다.
인시던트 단계
1. 탐지 (Detection)
- 알림: PagerDuty, Opsgenie
- 모니터링: Prometheus, Datadog
2. 트리아지 (Triage)
- 심각도 분류 (SEV1~SEV4)
- 인시던트 지휘자(IC) 지정
3. 대응 (Response)
- 영향 범위 파악
- 고객 커뮤니케이션
- 완화 조치 적용
4. 복구 (Recovery)
- 정상 상태 확인
- 모니터링 강화
5. 사후 분석 (Post-mortem)
- 근본 원인 분석
- 재발 방지 액션 아이템
심각도 기준
| 심각도 | 영향 | 대응 목표 |
|---|
| SEV1 | 전체 서비스 중단 | 즉시 (5분 내) |
| SEV2 | 주요 기능 장애 | 15분 내 |
| SEV3 | 부분 기능 저하 | 1시간 내 |
| SEV4 | 소수 영향, 워크어라운드 있음 | 다음 영업일 |
python
import pdpyras
# 알림 발송
session = pdpyras.APISession(api_key)
incident = session.post('/incidents', json={
'incident': {
'type': 'incident',
'title': 'API 응답 시간 임계치 초과',
'service': {'id': 'PXXXXXX', 'type': 'service_reference'},
'urgency': 'high',
'body': {'type': 'incident_body', 'details': 'P99 latency > 5s'},
}
})
관련 개념