콘텐츠로 바로가기

Disaster Recovery & Multi-region Architecture

전체 데이터 센터 소실 상황에서도 서비스를 지속하기 위한 물리적 복구 계획과, 전 지구적 규모의 멀티 리전 배치 물리학을 다루는 학습 노드입니다.

sys.entry
M

Me

hyunyoun's Blog

posts6 min read

1. Overview

재해 복구 및 멀티 리전 아키텍처(Disaster Recovery & Multi-region Architecture, DRM)는 지진, 화재, 전쟁과 같은 물리적 재난으로 인해 특정 지역의 전체 데이터 센터가 마비되었을 때, 시스템을 다른 대륙의 장비에서 즉시 '부활'시키는 생존의 기술입니다.

학습자는 단순한 백업을 넘어, 비즈니스 허용 가능한 데이터 손실 범위(RPO)와 복구 시간(RTO)을 수리적으로 정의하는 법을 배웁니다. 특히, 여러 국가에 서버를 분산 배치하는 멀티 리전(Multi-region) 구조의 물리적 데이터 동기화 한계와, 사용자 요청을 가장 가까운 리전으로 보내는 전 지구적 트래픽 제어 물리학을 익힙니다. 이를 통해 어떤 물리적 충격에도 굴하지 않는 '무정전(Always-on)' 글로벌 서비스 인프라 설계 능력을 확보합니다.

2. Scope & Boundaries

In-Scope

  • DR Metrics: RPO(Recovery Point Objective)와 RTO(Recovery Time Objective)의 수리 모델
  • DR Strategies: Backup & Restore, Pilot Light, Warm Standby, Multi-site Active-Active
  • Multi-region Dynamics: 대륙 간 네트워크 지연(LatencyLatency)과 데이터 정합성 유지 물리학
  • Failover Mechanics: DNS 및 글로벌 로드 밸런서 기반의 자동 지역 전환 물리 절차
  • Geographic Isolation: 장애의 물리적 결합도를 끊기 위한 하드웨어 배치 전략

Out-of-Scope

  • 개별 데이터베이스 하위의 비동기 복제 수리 상세 (06-03-04 영역에서 분담)
  • 오피스 건물 내 소방 설비 및 물리 보안 상세 (시설 관리 영역으로 위임)

Boundaries

  • DRM vs. High Availability: 고가용성(HA)이 '단일 서버/랙 장애'에 대응한다면, DRM은 '도시/국가 단위의 물리적 소실'이라는 거대 재해에 대응하는 아키텍처로서 구분합니다.

3. Counterexample

  • 단순히 "다른 나라에 서버 켜두기"라 설명하는 것은 DRM 학습이 아닙니다. 왜 Active-Active 멀티 리전 구조에서 '쓰기(Write)' 작업이 물리적 동기화 지연으로 인해 '성능 지옥'에 빠질 수 있는지 수리 증명할 수 있어야 하며, 재난 훈련(Game Day) 없이 기술적으로만 완벽한 복구 매뉴얼이 실제 상황에서 왜 물리적 '무용지물'이 되는지 분석하지 못한다면 DRM의 본질을 이해하지 못한 것입니다.

4. Prerequisites

  • Replication, Partitioning & Sharding (Basic): 데이터 복제 기본 원리 이해가 필수입니다. (07-03-02 RPS)
  • Theorems & Consistency Dynamics (Recommended): 전역 정합성 한계 이해가 권장됩니다. (07-02-01 TCD)

5. Learning Map

  1. Defining the Loss: 재난 시 우리가 얼마나 잃어도 되는지 수리적 한계(RPO/RTO)를 정합니다.
  2. Cold to Hot: 복구 장비의 하드웨어 준비도(Prewarming)에 따른 4단계 복구 전술을 배웁니다.
  3. The Global Mirror: 지구 반대편에도 동일한 데이터를 주입하여 정적 상태(Static State)를 만듭니다.
  4. Instant Resurrection: 주 센터가 사라지는 찰나, 트래픽을 빛의 속도로 다른 대양으로 돌리는 공학을 완성합니다.

6. Learning Topics

Basic

Core: RPO/RTO와 재해 복구 지표 (DR Metrics)

  • Why to Learn: 기술적 비용과 비즈니스 손실 사이의 물리적 균형점을 찾아 예산을 최적화하기 위해서입니다.
  • What to Learn:
    • RPO (Recovery Point Objective): 재난 시 유실 가능한 최대 데이터 시간 범위
    • RTO (Recovery Time Objective): 서비스 재개까지 걸리는 물리적 시간
    • Cost Curves: RTO/RPO를 단축함에 따라 기하급수적으로 늘어나는 하드웨어 비용 산출
  • How to Learn:
    • 금융권과 SNS 서비스의 각각 다른 RPO/RTO 목표치를 비교하고, 소요되는 물리 인프라 규모 예측 실습
    • 1시간 분량의 백업본을 복구하는 데 드는 실제 하드웨어 I/O 시간 계산
  • Implement: 비즈니스 중요도에 따른 예상 RPO/RTO 설정 보고서 예시

Core: 4가지 재해 복구 아키텍처 (DR Strategies)

  • Why to Learn: 시스템의 성격에 따라 가장 가성비 높은 복구 물리 방식을 선택하기 위함입니다.
  • What to Learn:
    • Backup & Restore: 데이터만 보관하고 장비는 나중에 띄우는 저비용 방식
    • Pilot Light: 핵심 데이터만 동기화하고 나머지는 껍데기만 둔 상태
    • Warm Standby: 주 센터의 축소판 하드웨어를 미리 가동 중인 상태
    • Multi-site Active-Active: 전 세계 모든 리전에서 즉시 서비스를 제공하는 최강 물리학
  • How to Learn:
    • 각 방식의 '상황 발생 후 복구 완료'까지의 수리적 단계(Step) 수 비교 실습
    • 복구 시나리오별 트래픽 전환 성공률 산출
  • Implement: 특정 방식(예: Pilot Light)의 자동 복구 스크립트 흐름 설계

Practical

Core: 멀티 리전 트래픽과 데이터 물리 (Global Distribution)

  • Why to Learn: 물리적 거리가 유발하는 지연 시간(LatencyLatency)을 극복하거나 수용하기 위해서입니다.
  • What to Learn:
    • Global Load Balancing: 위도/경도 기반의 트래픽 라우팅
    • Async Replication Lag: 대륙 간 네트워크 해저 케이블 전송 속도와 지연 물리학
    • Conflict resolution: 서로 다른 나라에서 동시에 쓴 데이터의 수리적 화해 기법
  • How to Learn:
    • 한국 리전과 미국 리전 간의 핑(PingPing) 테스트를 통해 패킷이 대역폭을 통과하는 물리 속도 확인 실습
    • 멀티 리전 쓰기 시 발생하는 데이터 충돌 시나리오를 'Last Write Wins'로 해결할 때의 위험 분석
  • Implement: 유저의 요청 리전을 인식하여 가장 가까운 DB 엔드포인트를 반환하는 RegionRouter

Advanced

Core: 전 지구적 합의와 장애 복구 자동화 (Hyper-DR)

  • Why to Learn: 사람의 판단 없이 시스템이 스스로 재난을 판단하고 1초 내에 복구하게 만들기 위함입니다.
  • What to Learn:
    • Fencing Mechanics: 장애 센터를 서비스 망에서 완전히 격리하여 오염을 막는 물리학
    • Automated Failover Loop: 장애 감지 -> 판단 -> 전환 -> 알림의 수리적 폐루프 제어
    • Chaos in DR: 전 지역 통신 두절 상황을 가정한 극한의 하드웨어 복원력 테스트
  • How to Learn:
    • 리전 하나를 통째로 모의 삭제(Ignore)하고, 트래픽 유실 없이 다른 리전이 이를 흡수하는 과정 실습
    • 대규모 인프라의 '의존성 그래프'를 분석하여 리전 간 꼬임 현상이 복구 발목을 잡는지 검증
  • Implement: 전체 리전의 상태를 집계하고 임계치 돌파 시 자동 전환을 트리거하는 FailoverOrchestrator

7. Terminology

Term (EN / ko, abbr) 1문장 정의 단계(기본/권장/실무/심화) 역할/맥락 관련 개념 유사/대비/함께 사용 오해 포인트 Evidence(Primary/Secondary/Industry) Flags(core)
RPO 재난 전 최종 데이터 시점부터 재난 발생 시점까지의 최대 허용 유실 데이터량입니다. 기본 손실 측정 Data Loss RTO '시간' 단위로 측정 Industry core
RTO 재난 발생 후 서비스가 다시 가동될 때까지 걸리는 최대 허용 물리적 시간입니다. 기본 복구 속도 Downtime RPO '복구 시간'의 약속 Industry core
Failover 메인 시스템 장애 시 예비 시스템으로 업무를 하드웨어적으로 넘기는 자동화 절차입니다. 실무 연속성 Standby Switchover '사람 개입' 최소화 P2:SWEBOK core
Multi-region 지리적으로 멀리 떨어진 두 개 이상의 데이터 센터 지역에 인프라를 분산 구축하는 전략입니다. 추천 글로벌 생존 Cloud / Zone Multi-AZ AZ와는 범위가 다름 Industry core

8. References

Primary

Secondary

  • [Designing Data-Intensive Applications (DDIA)] Martin Kleppmann — Global data replication.
  • [The Site Reliability Workbook] Google — Practical disaster recovery methods.

Industry

  • [AWS: Disaster Recovery of Workloads on AWS] — Industry standard whitepaper.
  • [Microsoft: Azure Multi-region Architecture Guidance] — Cloud pattern guide.

9. Final Checklist

Primary

  • 비즈니스 도메인(예: 의료, 엔터테인먼트)에 따라 'RPO'와 'RTO'의 물리적 목표치를 수리 근거와 함께 제시할 수 있는가? (P5)
  • '멀티 리전' 아키텍처 구축 시, 광속 한계로 인한 대륙 간 네트워크 지연이 데이터 복제에 미치는 영향을 설명 가능한가? (P2)

Secondary

  • 'Pilot Light' 아키텍처가 'Backup & Restore' 방식보다 왜 복구 속도(RTORTO) 면에서 유리한지 하드웨어 상태 변화를 들어 논증 가능한가?
  • Active-Active 구조에서 '데이터 드리프트(Data Drift)' 현상을 물리적으로 어떻게 최소화할 수 있는지 소통 가능한가?

Industry

  • '글로벌 로드 밸런싱(GSLB)'을 이용해 특정 국가의 유저를 다른 나라의 리전으로 강제 전환하는 물리적 Failover 시나리오를 수립할 수 있는 가? (SFIA)
  • 재난 복구 테스트인 Game Day 진행 시, 기존 운영 시스템에 주지 않아야 할 물리적 영향과 안전 장치를 제안할 수 있는 가?