콘텐츠로 바로가기

Incident Management & Postmortem Culture

장애 상황을 수습하는 물리적 절차와, 실패를 학습의 기회로 삼는 비난 없는 포스트모텀 문화를 다루는 SRE 운영 학습 노드입니다.

sys.entry
M

Me

hyunyoun's Blog

posts6 min read

1. Overview

장애 관리 및 포스트모텀 문화(Incident Management & Postmortem Culture, IMP)는 시스템이 멈추는 물리적 '위기'를 하드웨어나 코드의 결함을 넘어 조직 전체의 '자산'으로 승화시키는 운영의 물리학입니다.

학습자는 장애 발생 시 당황하지 않고 복구에 집중하게 만드는 장애 대응 프로세스와 지휘 체계(Incident Commander)의 수리적 흐름을 배웁니다. 특히, "누가 실수했는가"가 아닌 "시스템의 어떤 물리적 방어선이 뚫렸는가"에 집중하는 **비난 없는 포스트모텀(Blameless Postmortem)**의 사상과 **근본 원인 분석(RCA)**의 수리적 사상을 익힙니다. 이를 통해 장애로부터 도망치는 것이 아니라, 장애를 딛고 더 단단한 아키텍처를 세우는 하이엔드 신뢰성 운영 역량을 확보합니다.

2. Scope & Boundaries

In-Scope

  • Incident Lifecycle: 감지, 수습, 복구, 분석의 물리적 단계
  • Incident Command System (ICS): 지휘자, 통신 담당, 실행 담당의 역할 분리 물리학
  • Blameless Postmortem Principles: 심리적 안전성 확보와 시스템적 원인 추적
  • Root Cause Analysis (RCA): 5 Whys, 물고기뼈 다이어그램 기반의 수리적 인과 추론
  • Corrective Action Tracking: 장애 재발 방지를 위한 하드웨어/소프트웨어 개선 항목 관리

Out-of-Scope

  • 서비스 데스크(Help Desk)의 고객 응대 스크립트 (비즈니스 관리 영역으로 위임)
  • 구체적인 서버 모니터링 도구의 활용 상세 (07-05-02 영역에서 분담)

Boundaries

  • IMP vs. Disaster Recovery: DR(07-03-04)이 '도시 단위 소실 시의 인프라 전환'에 집중한다면, IMP는 '일상적 장애 처리와 그 후에 따르는 조직적 학습'에 집중하여 구분합니다.

3. Counterexample

  • 단순히 "장애 보고서 쓰기"라 설명하는 것은 IMP 학습이 아닙니다. 왜 **비난(Blame)**이 섞인 보고서가 장애의 진짜 원인을 물리적으로 은폐하게 만들어 시스템을 더 위험하게 만드는지 수리 증명할 수 있어야 하며, 재발 방지 대책이 "주의하겠다" 같은 추상적 결론이 아닌 "어떤 하드웨어 설정을 물리적으로 강제하겠다"라는 실질적 조치로 연결되지 못한다면 IMP의 본질을 이해하지 못한 것입니다.

4. Prerequisites

  • Monitoring, Observability & Distributed Tracing (Basic): 장애 감지 도구 이해가 필수입니다. (07-05-02 MOD)
  • SLIs, SLOs & Error Budgets (Recommended): 장애 심각도 판단 기준 이해가 권장됩니다. (07-05-01 SSE)

5. Learning Map

  1. The Alarm: 시스템이 내뱉는 비명(Alert)을 듣고 즉시 비상 연락망(On-call)을 가동합니다.
  2. Stopping the Bleed: 원인을 알기 전에, 일단 서비스가 돌아가게 만드는 물리적 응급처치를 수행합니다.
  3. The Autopsy: 조용해진 현장에서 무슨 일이 벌어졌는지 기록(Logs)과 데이터로 수리적 시사점을 찾습니다.
  4. Resilient DNA: 분석 결과를 아키텍처에 주입하여, 똑같은 물리적 충격에는 다시는 구멍 나지 않는 방어선을 완성합니다.

6. Learning Topics

Basic

Core: 장애 대응 4단계 수순 (Incident Lifecycle)

  • Why to Learn: 골든 타임을 놓치지 않고 사용자 피해를 물리적으로 최소화하기 위해서입니다.
  • What to Learn:
    • Triage: 장애의 심각도를 보고 인력을 얼마나 투입할지 수리적 판단
    • Stabilization: 백업 장비 가동, 트래픽 차단 등 물리적 응급복구
    • Communication: 내부 이해관계자와 유저에게 현재 물리 상황 투명하게 공지
  • How to Learn:
    • 모의 장애 상황을 부여받고, 5분 내에 상황 전파 및 지휘 체계를 구성하는 훈련 실습
    • 장애 시간이 지날수록 비즈니스 손실액(LossLoss)이 어떻게 하드웨어적으로 누적되는지 산출
  • Implement: 장애 발생 시 등록된 슬랙 채널로 긴급 호출을 쏘는 AlertDispatcher

Core: 근본 원인 분석과 수리적 추론 (RCA Mechanics)

  • Why to Learn: 겉으로 드러난 현상(Symptom)이 아닌, 숨어있는 하드웨어적 병목(Cause)을 뿌리 뽑기 위함입니다.
  • What to Learn:
    • The 5 Whys: "왜?"를 반복하여 물리적 연쇄 작용의 끝에 도달하는 기법
    • Proportional Response: 장애 규모에 맞는 복구 하드웨어 리소스 투입 비율 산출
    • Latent Defects: 평상시엔 보이지 않다가 특정 부하에서 터지는 물리적 결함 탐색
  • How to Learn:
    • 과거의 실제 장애 사례(예: AWS 장애)를 가져와 5 Whys 분석을 직접 수행해 보는 실습
    • 분석 보고서에서 '사람의 실수'로 적힌 부분을 '시스템의 결함'으로 물리적 치환 시연
  • Implement: 장애 원인들을 카테고리별로 분류하고 재발 빈도를 집계하는 IncidentAnalyzer

Practical

Core: 비난 없는 포스트모텀 문화 (Blameless Culture)

  • Why to Learn: 실패를 숨기지 않는 문화를 만들어, 더 큰 물리적 재앙을 미리 방어하기 위해서입니다.
  • What to Learn:
    • Psychological Safety: 실수자가 비난받지 않아야 진실(Data)이 공유된다는 수리 철학
    • Postmortem Template: 시간대별 기록, 영향도, 근본 원인, 조치 사항의 물리적 구조
    • Action Items: "교육 강화"가 아닌 "코드 리뷰 자동화", "배포 가드레일 설치" 등의 수리적 실천
  • How to Learn:
    • 가상의 실패 사례를 바탕으로 비난 없이 '시스템적 개선안'만 담긴 포스트모텀 보고서 작성 실습
    • 포스트모텀 결과가 실제 인프라 변경(IAC)으로 이어지는 물리적 루프 확인
  • Implement: 장애 기록을 입력하면 표준 포스트모텀 템플릿으로 변환해주는 ReportGenerator

Advanced

Core: 운영 성숙도 측정과 지식 자산화 (Operations Asset)

  • Why to Learn: 장애를 겪을수록 운영 팀의 역량이 수치적으로 향상되게 만들기 위함입니다.
  • What to Learn:
    • MTTD/MTTR: 장애 감지(Detection) 및 복구(resolution)까지 걸리는 물리 시간 지표 수립
    • Operational Load: 수동 복구(Toil)가 전체 하드웨어 운영 리소스에서 차지하는 수리적 비중
    • Game Days: 가상 장애를 내고 대응 역량을 물리적으로 테스트하는 훈련 설계
  • How to Learn:
    • 지난 1년간의 장애 데이터를 모아 MTT* 지표의 개선 추이를 시각화 실습
    • 'Toil(재کر업)'이 개발 속도를 얼마나 물리적으로 늦추는지 기회비용 산출
  • Implement: 팀 내 온콜(On-call) 성과와 장애 처리 효율을 지표화하는 OperationsScorecard

7. Terminology

Term (EN / ko, abbr) 1문장 정의 단계(기본/권장/실무/심화) 역할/맥락 관련 개념 유사/대비/함께 사용 오해 포인트 Evidence(Primary/Secondary/Industry) Flags(core)
Postmortem 장애 복구 후 원인 분석 및 재발 방지책을 논의하고 기록하는 물리적 프로세스입니다. 기본 지식 자산화 RCA / Action Feedback '반성문' 아님 Industry/SRE core
On-call 장애 발생 시 즉시 대응할 수 있도록 비상 대기하는 하드웨어 운영 인력의 상태입니다. 기본 비상 대기 Alert / Page Rotation '야근'과는 다름 P5:SFIA core
MTTR 장애 발생 시점부터 완전히 복구될 때까지 걸린 물리적 시간의 수리적 평균입니다. 실무 운영 신속도 Metrics / Recovery Availability 짧을수록 좋음 Industry core
Toil 반복적이며 수동적인 운영 작업으로, 자동화를 통해 물리적으로 제거해야 할 대상입니다. 추천 효율화 지표 Automation / SRE Chore '단순 작업' 그 이상 Industry/SRE core

8. References

Primary

Secondary

  • [Site Reliability Engineering (SRE Book)] Google — Chapters on Incident Management and Postmortems.
  • [The Field Guide to Understanding 'Human Error'] Sidney Dekker — Foundational for blameless culture.

Industry

  • [Atlassian: Incident Management Handbook] — Practical industry standard workflows.
  • [PagerDuty: Training for Postmortems] — Interactive learning resources.

9. Final Checklist

Primary

  • '장애 수습(Stabilization)' 단계와 '완전 복구(Permanent Fix)' 단계의 물리적 차이를 명확히 구분하여 설명 가능한가? (P5)
  • '비난 없는 포스트모텀'이 왜 조직의 하드웨어 운영 데이터의 신뢰도를 높이는지 수리적으로 논증할 수 있는 가? (P2)

Secondary

  • '5 Whys' 기법을 실제 시스템 장애 시나리오에 적용하여, 코드 레벨의 버그 배후에 숨은 '설계 결함'을 짚어낼 수 있는 가?
  • **MTTR(복구 시간)**을 단축하기 위해 어떤 하드웨어 자동화 장치를 우선적으로 도입해야 하는지 소통 가능한가?

Industry

  • 장애 상황에서 '지휘자(Incident Commander)'가 의사결정의 병목을 어떻게 물리적으로 해결하며 팀을 이끄는지 제안할 수 있는 가? (SFIA)
  • 장애 보고서에 포함된 '조치 사항(Action Items)'이 미래의 오류 예산(ErrorBudgetError Budget)을 지키는 하드웨어적 방패가 되는 원리를 분석할 수 있는 가?