Processing Types 데이터 처리 방식은 시스템의 요구 사항에 따라 배치 (Batch), 스트림 (Stream), 하이브리드 (Hybrid) 로 구분된다. Batch Processing 은 데이터의 대량 집계와 정확성에 적합하고, Stream Processing 은 실시간 응답성과 낮은 지연 시간에 유리하다. Hybrid Processing 은 Lambda Architecture 처럼 두 방식을 조합해 실시간성과 정확성을 모두 확보하려는 전략이다. 각각은 처리량, 지연 시간, 아키텍처 복잡도 등에서 상호 보완적이며, 시스템 목적에 따라 선택 또는 병행된다.
핵심 개념 Batch는 대용량 데이터를 정확하게 처리하고, 일정 간격으로 분석과 보고서를 생성하는 데 적합하다. Stream은 지연 없이 이벤트를 실시간 처리하고, 즉시 반응해야 하는 시스템에 사용된다. Hybrid는 두 방식의 강점을 조합하여, 실시간성과 정합성이 모두 중요한 복잡한 비즈니스 도메인에서 사용된다.
예: 이상 탐지, 실시간 사용자 분석, 추천 시스템 등. 구분 Batch Processing Stream Processing Hybrid Processing 정의 일정량의 데이터를 모아서 일괄 처리 데이터가 생성되는 즉시 실시간으로 처리 배치와 스트림 방식을 병행하여 처리 지향점 정확성, 정합성 중심 실시간성, 즉시 반응 중심 정확성과 실시간성의 균형 처리 방식 고정 주기 실행 (예: 하루 1 회) 이벤트 기반으로 연속 처리 배치 레이어 + 스피드 레이어 (Lambda) / 통합 레이어 (Kappa) 주요 특징 지연 허용, 대용량 처리, 분석 최적화 낮은 지연, 빠른 대응, 상태 기반 처리 가능 복합적 요구 대응, 운영 복잡도 증가 활용 분야 리포트 생성, ETL, 통계 분석 실시간 알림, 이상 탐지, 모니터링 금융 거래 분석, 사용자 행동 예측, 마케팅 실시간 반응 시스템 등 실무 기술 스택 매핑 구성 요소 Batch Stream Hybrid (Lambda/Kappa) 엔진 Apache Spark, Hadoop MapReduce, Hive Apache Flink, Kafka Streams, Spark Streaming Lambda: Spark + Storm / Kappa: Flink 단독 사용 메시징 시스템 Kafka, Amazon Kinesis Kafka, Pulsar, RabbitMQ Kafka (공통 메시지 버퍼링), Kinesis 저장소 HDFS, Amazon S3, RDBMS NoSQL, Elasticsearch, Redis 데이터 레이크 + 실시간 인덱싱 레이어 스케줄링 Airflow, Oozie Kafka Consumer, Flink Job 조합: Airflow + Flink / Kappa 구조에서는 Flink 단독 사용 서빙 레이어 Presto, Druid, BI 도구 Redis, Elasticsearch Redis + Druid/ES 통합 서빙 실무 적용 사례 및 고려 사항 구분 적용 사례 처리 우선순위 적합성 설명 Batch 월간 리포트 생성, 로그 정제 및 보관 정합성 우선 대량 데이터 처리에 적합하며, 처리 지연 허용 가능 Stream 실시간 트래픽 분석, 센서 데이터 모니터링 반응 속도 우선 지연이 적고 상태 기반 처리가 필요한 실시간 이벤트 처리에 적합 Hybrid 광고 클릭 분석, 이상 금융 거래 탐지 정합성 + 실시간성 정확성과 즉시 반응이 동시에 필요한 복합적 시스템에 최적화 하위 처리 기준 비교 기준 Batch Stream Hybrid 지연 허용 여부 있음 (분 ~ 시 단위) 없음 (ms ~ s 단위) 부분 허용 정확성 ✅ ❌ ✅ 실시간성 ❌ ✅ ✅ 구현 복잡도 낮음 보통 높음 운영 복잡도 단순 보통 복잡 아키텍처 연계 요약 처리 방식 연계 아키텍처 설명 Batch ETL Pipeline, Data Warehouse 데이터 수집 → 변환 → 적재 → 분석 (정기적 리포트 등) Stream Event-Driven, Reactive 실시간 이벤트 수신 및 처리, CEP 등 이벤트 흐름 중심 구조 Hybrid Lambda, Kappa Architecture Lambda: 배치 + 스피드 레이어 / Kappa: 단일 스트림 기반 배치 + 실시간 통합 구조 Batch Processing vs. Stream Processing vs. Hybrid Processing 비교 각 처리 방식은 데이터의 시간적 특성과 비즈니스 요구사항에 따라 선택된다. 배치 처리는 정확성과 효율성을, 스트림 처리는 실시간성과 반응성을, 하이브리드 처리는 두 방식의 균형을 추구한다.
...