콘텐츠로 바로가기

SLI, SLO & Error Budget

서비스 신뢰성을 수치로 정의하고 계약하는 SRE의 핵심 프레임워크. 남은 Error Budget이 있으면 새 기능 배포 가능. 소진되면 안정화 작업 우선. 개발팀과 SRE 팀의 공통 언어.

sys.entry
M

Me

hyunyoun's Blog

system-architecture-distributed-systems1 min read

SLI, SLO & Error Budget

서비스 신뢰성을 수치로 정의하고 계약하는 SRE의 핵심 프레임워크.

계층 구조

SLI (Service Level Indicator): 측정 가능한 신뢰성 지표.

CODE
SLI = 성공 요청 수 / 전체 요청 수
예: 200ms 이내 응답 비율, 성공 응답 비율

SLO (Service Level Objective): SLI의 목표 임계값.

CODE
SLO: 99.9% 요청이 200ms 이내 응답 (30일 기준)

SLA (Service Level Agreement): SLO를 외부 고객과 계약한 것. 위반 시 패널티 발생.

Error Budget

CODE
Error Budget = 1 - SLO
99.9% SLO → 0.1% 오류 허용 = 월 43.2분 다운타임 허용

남은 Error Budget이 있으면 새 기능 배포 가능. 소진되면 안정화 작업 우선. 개발팀과 SRE 팀의 공통 언어.

실무 적용

  • Burn Rate Alert: 현재 소진 속도가 예산을 조기 소진할 경우 경보
  • Toil 판단: 반복 수동 작업이 Error Budget에 영향을 주지 않으면 자동화 우선순위 낮춤

연결 노트