
클라우드 & 인프라
Disaster Recovery재해 복구
재해 복구(DR, Disaster Recovery)는 자연재해, 사이버 공격, 인프라 장애 등으로 인한 서비스 중단 시 시스템을 신속하게 복구하는 전략과 절차다.
핵심 메트릭
| 지표 | 정의 | 의미 |
|---|---|---|
| RTO (Recovery Time Objective) | 최대 허용 복구 시간 | 얼마나 빠르게 복구할 수 있는가 |
| RPO (Recovery Point Objective) | 최대 허용 데이터 손실 시간 | 얼마나 과거 시점으로 복구하는가 |
| MTTR | 평균 복구 시간 | 실제 평균 복구 소요 시간 |
DR 전략 비교
| 전략 | RTO | RPO | 비용 | 설명 |
|---|---|---|---|---|
| Backup & Restore | 수 시간 | 수 시간~1일 | 낮음 | 백업에서 복원 |
| Pilot Light | 10분~1시간 | 분~시간 | 중간 | 최소 인프라 상시 대기 |
| Warm Standby | 분 | 초~분 | 높음 | 축소 규모로 상시 운영 |
| Multi-Site Active-Active | 거의 0 | 거의 0 | 매우 높음 | 다중 리전 동시 운영 |
AWS DR 아키텍처 (Pilot Light)
Route 53 장애 조치 설정
재해 복구 테스트
- •Chaos Engineering: 프로덕션에서 실제 장애 시뮬레이션
- •GameDay: 팀 전체가 참여하는 DR 훈련
- •Runbook 자동화: AWS Systems Manager Automation으로 복구 절차 자동화