SLI, SLO & Error Budget
서비스 신뢰성을 수치로 정의하고 계약하는 SRE의 핵심 프레임워크. 남은 Error Budget이 있으면 새 기능 배포 가능. 소진되면 안정화 작업 우선. 개발팀과 SRE 팀의 공통 언어.
sys.entry
M
Me
hyunyoun's Blog
system-architecture-distributed-systems1 min read
SLI, SLO & Error Budget
서비스 신뢰성을 수치로 정의하고 계약하는 SRE의 핵심 프레임워크.
계층 구조
SLI (Service Level Indicator): 측정 가능한 신뢰성 지표.
CODE
SLI = 성공 요청 수 / 전체 요청 수
예: 200ms 이내 응답 비율, 성공 응답 비율
SLO (Service Level Objective): SLI의 목표 임계값.
CODE
SLO: 99.9% 요청이 200ms 이내 응답 (30일 기준)
SLA (Service Level Agreement): SLO를 외부 고객과 계약한 것. 위반 시 패널티 발생.
Error Budget
CODE
Error Budget = 1 - SLO
99.9% SLO → 0.1% 오류 허용 = 월 43.2분 다운타임 허용
남은 Error Budget이 있으면 새 기능 배포 가능. 소진되면 안정화 작업 우선. 개발팀과 SRE 팀의 공통 언어.
실무 적용
- Burn Rate Alert: 현재 소진 속도가 예산을 조기 소진할 경우 경보
- Toil 판단: 반복 수동 작업이 Error Budget에 영향을 주지 않으면 자동화 우선순위 낮춤
연결 노트
- ZK-Microservices-Decomposition — 서비스별 독립 SLO 설정
- ZK-CQRS-Pattern — Eventual Consistency 허용 수준을 SLO로 명문화
- ZK-ReAct-Pattern — 에이전트 루프의 신뢰성도 SLI로 측정 가능 (tool 성공률, 응답 시간)