Reliability Engineering & SRE Foundations

1. Overview

신뢰성 공학 및 SRE 기초(Reliability Engineering & SRE Foundations, SRE)는 '시스템은 언제나 실패할 수 있다'는 신뢰 불능의 물리적 현실을 인정하고, 이를 어떻게 관리하고 자동 복구할 것인지에 대한 엔지니어링 방법론을 다룹니다.

안정성은 주관적인 느낌이 아니라 측정 가능한 '숫자'입니다. 학습자는 서비스 수준 목표(SLO)를 설정하여 혁신 속도와 안정성 사이의 물리적 균형을 맞추는 에러 예산(Error Budget), 시스템 내부 상태를 투명하게 들여다보는 관측성(Observability), 그리고 수동 개입 없는 자가 치유(Self-healing) 아키텍처를 학습합니다. 이를 통해 소프트웨어 개발자가 운영 문제를 하드코딩하여 해결하는 'SRE적 사고'를 체득합니다.

2. Scope & Boundaries

In-Scope

Quantitative Reliability: SLI(지표), SLO(목표), SLA(약약)의 정의와 에러 예산 관리 물리
Observability Stack: Metrics, Logs, Traces의 3요소와 분산 트레이싱 역학
Resilience Engineering: 과부하 조절(Load Shedding), 격리(Bulkhead), 재시도 및 타임아웃 전략
Operational Automation: Toil(반복 업무)의 식별 및 자동화를 통한 오퍼레이션의 소프트웨어화

Out-of-Scope

구체적인 모니터링 도구(Grafana, Datadog)의 대시보드 UI 꾸미기 (12. HCI & Graphics 영역으로 위임)
순수 수동 운영 및 시스템 관리 (비-엔지니어링 영역)

Boundaries

SRE vs. DevOps: 09-03(DevOps)이 '개발과 운영의 협업 절차 및 자동화'라는 문화와 파이프라인에 주력한다면, SRE는 '운영 문제를 소프트웨어로 풀고 신뢰성을 숫자로 보장한다'는 구체적인 구현 패턴에 집중합니다.

3. Counterexample

단순히 서버 에러 로그를 수집하는 것은 SRE 학습이 아닙니다. 특정 지표(예: 95th Percentile Latency)가 목표치를 벗어났을 때, 비즈니스 가치와 연계된 에러 예산이 소진되는 과정을 분석하고, 이를 바탕으로 업데이트를 중단하거나 인프라를 확장하는 물리적 피드백 루프를 설계할 수 있어야 합니다.

4. Prerequisites

기초 및 아키텍처 패턴 (Basic): 장애 전파 방지를 위한 컴포넌트 격리 개념이 필요합니다. (07. FAP)
확장성 및 고가용성 설계 (Recommended): 장애 조치(Failover)와 다중화 개념 이해가 안정성 설계의 기본입니다. (07. SHA)

5. Learning Map

시스템의 가용성과 안정성을 극한으로 끌어올리는 SRE의 5단계 여정입니다.

Stage 1: Observability & SLI-SLO (관측성): 시스템의 내부를 가시화하고 안성성을 정량화하는 기준을 세웁니다.
Stage 2: Incident Management & Remediation (장애 대응): 장애를 관리하고 학습하며 자동화된 복구 체계를 구축합니다.
Stage 3: Capacity & Resource Engineering (용량 관리): 부하를 예측하고 자원을 효율적으로 운영하는 메커니즘을 심화합니다.
Stage 4: Chaos Engineering (카오스 공학): 의도적인 결함을 주입하여 시스템 고유의 안성성을 검증하고 강화합니다.
Stage 5: SRE Governance & Culture (가버넌스): 에러 예산 정책과 SRE 문화를 조직 전반에 내재화합니다.

6. Learning Topics

Basic

Core: 신뢰성 지표와 SLO (Reliability Metrics)

Why to Learn: 안정성을 주관적인 감에 의존하지 않고 정량적으로 관리하기 위함입니다.
What to Learn:
- SLI (Service Level Indicator): 성공률, 지연 시간, 가용성 지표 선정
- SLO (Service Level Objective): 팀이 지켜야 할 목표 수치 정의 물리
- SLA (Service Level Agreement): 고객과의 법적 약속과 SLO의 차이
How to Learn:
- 실제 웹 서비스 로그에서 '성공한 요청'을 정의하는 쿼리를 짜보고 SLI 추출 실습
- SLO가 99.9%일 때 한 달 동안 허용되는 시스템 다운 시간(Error Budget) 계산
Implement: 특정 마이크로서비스에 대한 핵심 지표(SLI)와 달성 목표(SLO) 정의서

Why to Learn: 문제가 발생했을 때 '왜' 발생했는지 원인을 물리적으로 추적하기 위해서입니다.
What to Learn:
- Metrics(시계열 데이터), Logs(이벤트 이력), Traces(흐름 추적) 역학
- 분산 트레이싱: 요청 ID 전파를 통한 마이크로서비스 간의 병목 식별
- 카디널리티(Cardinality)와 데이터 저장 밀도/비용 분석
How to Learn:
- OpenTelemetry 등을 사용하여 간단한 애플리케이션의 내부 실행 시간을 계측기로 수집
- 로그 파일 10GB에서 특정 에러 패턴이 발생한 순서를 분산 트레이싱 ID로 묶어 분석
Implement: 메트릭과 로그가 연동되어 장애 경로를 보여주는 기본 통합 모니터링 구성안

Practical

Core: 에러 예산과 배포 규격 (Error Budgets & Rollouts)

Why to Learn: 무리한 신기능 배포로 인한 대형 장애를 시스템적으로 차단하기 위함입니다.
What to Learn:
- Error Budget: 예산 소진 시 배포 동결(Freeze) 정책의 물리적 강제성
- 번 다운 차트(Burn-down Chart)를 이용한 안정성 추이 모니터링
- 점진적 배포(Canary) 시의 지표 기반 자동 롤백 논리
How to Learn:
- 가상의 에러 발생 시나리오에서 에러 예산이 깍이는 속도를 계산하고 경고 알림 수립 실습
- 신규 버전 성능 저하 감지 시 자동으로 시스템을 이전 상태로 되돌리는 피드백 루프 분석
Implement: 에러 예산 소진 현황에 따른 개발/운영 팀의 행동 지침(Escalation Policy)

Advanced

Core: 자가 복구와 탄력적 엔지니어링 (Self-healing & Resilience)

Why to Learn: 사람의 개입 없이도 시스템 스스로 장애를 극복하도록 만들기 위해서입니다.
What to Learn:
- Load Shedding: 과부하 시 비핵심 요청을 선별적으로 물리적 차단
- Bulkhead Pattern: 장애를 특정 컴포넌트에 가두어 전체 붕괴 방지
- 카카오스 엔지니어링(Chaos Engineering): 예기치 못한 장애를 강제로 발생시켜 약점 탐지
How to Learn:
- 무작위로 서버를 끄거나 네트워크 지연을 주는 실험을 통해 시스템 대처 능력 평가
- 서킷 브레이커가 열렸을 때 폴백(Fallback) 데이터가 정상 노출되는지 물리적 확인
Implement: 장애 환경에서도 핵심 기능(예: 결제 완료)만은 유지하는 탄력적 아키텍처 설계

7. Terminology

Term (EN / ko, abbr)	1문장 정의	단계(기본/권장/실무/심화)	역할/맥락	관련 개념	유사/대비/함께 사용	오해 포인트	Evidence(Primary/Secondary/Industry)	Flags(core)
SLO	서비스 성능의 목표치를 수치화한 것으로, 팀의 안정성 기준점이 됩니다.	기본	관리 기준	SLI / SLA	Benchmark	법적 계약(SLA)과 동일시함	Industry SRE	core
Error Budget	SLO 목표치를 100%에서 뺀 '허용 가능한 실패의 양'으로, 혁신의 연료로 사용됩니다.	추천	결정 도구	SLO	Alerting	단순히 '예산(돈)'으로 오해	Industry SRE	core
Observability	시스템의 외부 출력(지표, 로그 등)만으로 내부 상태를 얼마나 잘 이해할 수 있는지를 나타내는 척도입니다.	추천	진단 역량	Monitoring	Tracing	단순히 '대시보드 보기'로 오해	Industry/Lightstep	core
Toil	수동적이고 성능에 기여하지 않으며 서비스 규모에 비례해 늘어나는 반복적인 운영 작업입니다.	기본	생산성 분석	Automation	Operation	'노력' 전반과 혼동함	Industry SRE	core

8. References

Primary References

[P5] SFIA - System Management / Service Level Management — Industry standard roles.
[P2] SWEBOK v4.0 - Software Construction / Maintenance — Reliability and operational lifecycle.

Secondary References

[Site Reliability Engineering (The SRE Book)] Google — Foundational implementation.
[Observability Engineering] Charity Majors et al. — Modern observability depth.

Industry References

[Google SRE Workbook] — Practical checklists and case studies.
[AWS Reliability Pillar - Well-Architected] — Cloud native reliability patterns.

9. Final Checklist

Primary Checklist

시스템의 현재 '가용성'을 5가지 핵심 SLI(예: Error rate, Latency)를 통해 수치로 리포팅할 수 있는가? (P5)
에러 예산이 소진되었을 때, 신규 기능 배포를 멈추어야 하는 이유를 물리적 안정성 관점에서 변론 가능한가? (P5)

Secondary Checklist

단순 모니터링만으로 해결되지 않는 복잡한 장애를 '분산 트레이싱'을 통해 어떻게 물리적 근본 원인(Root Cause)을 찾는지 인지하는가?
재시도(Retry) 전략이 시스템 전체에 '재시도 폭풍(Retry Storm)'을 일으켜 상황을 악화시킬 수 있는 리스크를 예측하는가?

Industry Checklist

프로덕션 환경에 카오스 엔지니어링 도구를 도입하여 장애 전파 방지 장치(서킷 브레이커 등)의 유효성을 실증 가능한가? (SFIA)
장애 발생 시 포스트모텀(Post-mortem)을 통해 인적 오류가 아닌 시스템의 구조적 결함을 찾아내고 자동화 개선안을 도출할 수 있는가?