Home » Computer Science and Engineering » Design and Architecture » Architecture

Data-Flow Architecture

Data-Flow Architecture 는 데이터를 일련의 독립적인 변환 모듈을 통해 순차적으로 처리하는 소프트웨어 아키텍처 스타일이다. 입력 데이터가 각 구성요소를 거치면서 점진적으로 변환되어 최종 출력에 도달하는 구조를 갖는다. 재사용성과 모듈성을 극대화하며 컴파일러, ETL 시스템, 스트림 처리 등에 활용된다.

Data-Flow Architecture

Data-Flow Architecture 는 소프트웨어 시스템을 데이터 변환의 연속으로 모델링하는 아키텍처 패턴이다. Batch Sequential, Pipe-and-Filter, Process Control 의 세 가지 주요 유형으로 분류되며, 각각 다른 실행 방식과 적용 영역을 갖는다. 이 아키텍처는 높은 모듈성, 재사용성, 병렬처리 가능성을 제공하지만 동적 상호작용과 상태 공유에 제약이 있다. 현대의 빅데이터 처리, 실시간 스트림 분석, 마이크로서비스 아키텍처에서 핵심적인 역할을 담당한다.

배경

역사적 맥락: 1970 년대, 전통적 von Neumann 방식의 한계를 극복하고 병렬성 (parallelism) 과 데이터 주도 실행 (data-driven execution) 을 강조한 Data‑Flow 구조가 하드웨어 및 소프트웨어 양쪽에서 연구됨.
이론적 기반: 태그된 토큰 (tagged-token) 과 정적인 데이터 흐름 그래프 (static dataflow graph) 를 이용한 동적 데이터 흐름 모델이 적용됨.

목적 및 필요성

모듈성 향상: 각 변환 단계를 독립적인 모듈로 분리하여 재사용성 극대화
확장성 제공: 새로운 필터 추가나 기존 필터 수정 시 다른 구성요소에 최소한의 영향
병렬 처리 지원: 독립적인 필터들의 동시 실행으로 성능 향상
유지보수성 개선: 각 단계별 독립적인 테스트와 디버깅 가능

핵심 개념

Data-Flow Architecture는 시스템을 데이터의 흐름 중심으로 구성하며, 각 연산 단위를 모듈화하여 독립적으로 실행하고 연결하는 구조이다.
주요 구현 방식에는 Batch Sequential, Pipe-and-Filter, Process Control 이 있으며, 데이터 파이프라인, 스트리밍 처리, IoT, ETL 시스템 등 실무 전반에 널리 활용된다.

기본 개념

항목	설명
데이터 중심 구동	연산 순서가 고정되지 않고, 데이터의 도착에 따라 실행 흐름이 결정됨
Pipe-and-Filter 패턴	데이터 처리 필터들이 파이프를 통해 연결되어 흐름을 구성
Batch Sequential	순차적인 배치 처리 기반 구성: 이전 모듈이 끝나야 다음 단계 실행
Process Control	제어 로직 분리 및 제어 루프 구성 (제어 유닛 ↔ 처리 유닛 분리)
모듈 병렬성	각 필터 (모듈) 는 독립적이고 병렬적으로 실행 가능

이론적 관점

항목	설명
데이터 중심 설계	시스템 주요 설계 단위가 기능보다 데이터 흐름에 집중됨
컴포넌트 독립성	각 필터는 입력 → 처리 → 출력의 독립적 실행 단위를 형성
비동기 처리 지원	각 컴포넌트는 이벤트/데이터 도착 즉시 처리, 전체 시스템은 비동기적으로 작동

실무적 관점

항목	설명
확장성	필터 단위로 구성되어, 새로운 처리 로직 추가/교체가 쉬움
재사용성	각 필터는 독립적으로 개발 및 테스트 가능
분산 처리	필터 단위로 멀티노드에 분산 배치 가능
스트리밍 적합성	실시간 분석 및 데이터 스트리밍 환경에 최적화됨

아키텍처 유형별 상세 특징

Batch Sequential

요소	설명
배치 처리	데이터를 일정 단위로 묶어 순차적으로 처리
순차 실행	완료 → 다음 단계 방식의 단방향 흐름

Pipe-and-Filter

요소	설명
파이프	데이터 이동 경로 역할 (필터 간 연결)
필터	입력 → 처리 → 출력 수행하는 모듈
스트림 처리	데이터 스트림이 필터 체인을 통해 실시간 처리됨

Process Control

요소	설명
제어 변수	시스템 상태를 제어하는 파라미터
피드백 루프	출력이 다시 입력에 영향을 미치는 순환 구조 (제어 시스템에서 자주 사용됨)

실무 구현 연관성 및 적용 기술

영역	설명
ETL/ELT 파이프라인	Pipe-and-Filter 패턴 기반으로 모듈화된 데이터 전처리 구성
Kafka / Flink / Spark Streaming	Stream Processing 기반의 실시간 파이프라인 처리 구조
IoT 제어 시스템	Process Control 패턴 활용하여 센서 제어/모니터링 구성
데이터 파이프라인 일반	데이터 중심 흐름을 설계하여 확장성과 유지보수 용이성 확보

성능 및 운영 관점의 주요 개념

항목	설명
병렬 처리	여러 필터가 동시에 작동하여 처리량 (throughput) 향상
파이프라이닝	각 필터가 동시다발적으로 다른 데이터 세트를 처리
백프레셔 (Backpressure)	데이터 처리 속도 차이로 인한 압력 조정 메커니즘
오류 격리	각 필터에서 발생한 오류는 독립적으로 처리 가능
데이터 형식 표준화	필터 간 데이터 교환을 위한 공통 포맷 유지 필요
상태 관리	Stateless 설계 권장되며, 필요 시 상태 공유 전략 설계 필요

주요 기능 및 역할

graph LR
    A[입력 데이터] --> B[변환 모듈 1]
    B --> C[변환 모듈 2]
    C --> D[변환 모듈 3]
    D --> E[출력 데이터]
    
    F[제어 정보] --> B
    F --> C
    F --> D

주요 기능:

데이터 추출 및 수집
데이터 변환 및 정제
데이터 전송 및 라우팅
오류 검출 및 복구
성능 모니터링

특징

특징	설명
데이터 중심성	데이터의 흐름이 시스템 구조를 결정
독립성	각 처리 단계가 독립적으로 동작
변환 지향	데이터의 점진적 변환에 중점
재사용성	필터의 다양한 조합으로 재사용 가능
확장성	필터 추가/제거를 통한 유연한 확장

핵심 원칙

단일 책임 원칙: 각 필터는 하나의 명확한 기능만 수행
데이터 무결성: 각 단계에서 데이터의 정확성과 일관성 유지
느슨한 결합: 필터 간 최소한의 의존성 유지
표준화된 인터페이스: 모든 필터가 동일한 입출력 형식 사용
오류 격리: 한 필터의 오류가 다른 필터에 전파되지 않도록 격리

주요 원리

Pipe-and-Filter: 입력이 연속적으로 필터를 통과하며 처리됨.
Batch Sequential: 일괄 순차 처리 방식.
Process Control: 제어 유닛 분리, 실시간 제어 시스템에 적합.
Stream Processing: 도착한 데이터를 바로 처리하는 방식.
Idempotency: 필터 간 반복 실행에도 일관성을 보장해야 함.

flowchart TD
    subgraph "Batch Sequential"
        A1[배치 1] --> B1[처리 모듈 1]
        B1 --> C1[완료]
        C1 --> A2[배치 2]
        A2 --> B2[처리 모듈 2]
        B2 --> C2[완료]
    end
    
    subgraph "Pipe and Filter"
        D1[데이터 스트림] --> E1[필터 1]
        E1 --> F1[파이프 1]
        F1 --> E2[필터 2]
        E2 --> F2[파이프 2]
        F2 --> E3[필터 3]
        E3 --> G1[출력 스트림]
    end
    
    subgraph "Process Control"
        H1[제어 변수] --> I1[컨트롤러]
        I1 --> J1[처리 유닛]
        J1 --> K1[피드백]
        K1 --> I1
    end

Batch Sequential 방식:

전체 데이터를 배치 단위로 분할
각 배치를 순차적으로 처리 모듈에 전달
이전 배치 처리 완료 후 다음 배치 시작
모든 배치 처리 완료 후 결과 통합

Pipe-and-Filter 방식:

데이터 스트림이 첫 번째 필터로 전달
각 필터가 데이터를 변환하여 파이프로 출력
파이프가 데이터를 다음 필터로 전송
모든 필터 처리 완료 후 최종 결과 생성

Process Control 방식:

제어 변수가 시스템 상태를 모니터링
컨트롤러가 현재 상태와 목표 상태 비교
처리 유닛이 필요한 조정 작업 수행
피드백을 통해 결과를 컨트롤러로 전달

작동 원리 및 주요 원리

flowchart LR
    A["데이터 소스 (Pump)"]
    subgraph Pipeline
      F1[Filter 1] --> F2[Filter 2] --> F3[Filter 3]
    end
    A --> Pipeline --> B(데이터 싱크)

Pipe: 필터 간 데이터 전송용 버퍼 채널.
Filter: 변환 수행, 무상태 (stateless) 또는 상태 공유 가능.
Pump & Sink: 데이터를 생성하고 소비하는 입출력 엔티티.
Token 기반 실행: 각 필터는 입력 토큰이 도착해야 활성화됨.
병렬 실행: 필터 인스턴스를 병렬로 확장 가능.

구조 및 아키텍처

Data-Flow Architecture 의 전체 구조:

graph TB
    subgraph "Data Flow Architecture"
        subgraph "입력 계층"
            A[데이터 소스 1]
            B[데이터 소스 2]
            C[데이터 소스 N]
        end
        
        subgraph "처리 계층"
            D[추출 필터]
            E[변환 필터]
            F[정제 필터]
            G[집계 필터]
        end
        
        subgraph "전송 계층"
            H[파이프 1]
            I[파이프 2]
            J[파이프 3]
        end
        
        subgraph "출력 계층"
            K[데이터 웨어하우스]
            L[데이터 레이크]
            M[실시간 대시보드]
        end
        
        A --> D
        B --> D
        C --> D
        
        D --> H
        H --> E
        E --> I
        I --> F
        F --> J
        J --> G
        
        G --> K
        G --> L
        G --> M
    end

구성 요소

구분	구성요소	기능	역할	특징
필수	데이터 소스 (Data Source)	데이터 생성 및 제공	시스템의 입력점 역할	다양한 형태의 데이터 지원
	필터 (Filter)	데이터 처리 및 변환	핵심 비즈니스 로직 수행	독립적이고 재사용 가능
	파이프 (Pipe)	데이터 전송	필터 간 데이터 연결	버퍼링 및 동기화 제공
	데이터 싱크 (Data Sink)	최종 결과 저장	시스템의 출력점 역할	다양한 저장 형식 지원
선택	모니터링 시스템	성능 및 상태 감시	시스템 안정성 보장	실시간 알림 및 로깅
	오류 처리기	예외 상황 처리	시스템 복원력 향상	자동 복구 및 재시도
	캐시 시스템	임시 데이터 저장	성능 최적화	빠른 데이터 접근
	스케줄러	배치 작업 관리	자동화된 실행 제어	시간 기반 트리거

구현 기법

카테고리	구현 기법	핵심 개념 / 정의	주요 도구·기술	주요 목적	대표 실전 사례	장·단점 요약
처리 모델 (Processing Models)	Batch Processing	일정 주기마다 대량 데이터를 일괄 처리	Apache Spark, Hadoop, Airflow	대용량 ETL·집계	자정 전날 트랜잭션 ETL	✔ 대량·복잡 계산 최적 ✘ 지연 (latency) 큼
	Stream Processing	데이터 도착 즉시 실시간 처리	Kafka/Flink, Kinesis, Spark Structured Streaming	실시간 분석·경보	IoT 센서 실시간 집계	✔ 저지연·즉각 대응 ✘ 처리 순서·정확도 관리 필요
	Micro‑Batch (Spark Streaming 등)	수초 단위 미니 배치로 실시간성↑·모델 단순화	Spark, Storm Trident	near‑real‑time ETL	실시간 IoT 로그 정제	✔ 모델·코드 재사용 ↑ ✘ 완전 실시간 대비 약간 지연
하이브리드 아키텍처	Lambda Architecture	Batch + Speed Layer 이중 파이프라인	Hadoop (Spark) + Flink/Kafka	정확성 + 즉시성	추천 엔진 재계산	✔ 정밀·실시간 균형 ✘ 이중 코드, 운용 복잡
	Kappa Architecture	스트림 단일 레이어로 재처리까지 해결	Kafka + Flink	단순성·재처리 용이	실시간 로그 플랫폼	✔ 단일 코드 기반 ✘ 과거 데이터 재처리 비용 ↑
오케스트레이션 & 워크플로	Workflow Orchestration	DAG 기반 작업 순서·의존성·재시도 관리	Airflow, Dagster, NiFi, AWS Step Functions	파이프라인 자동화·운영	종속성 많은 ETL DAG	✔ 리트라이·모니터링 내장 ✘ 운용 메타스토어 필요
실행 모델 (Execution Models)	Token‑Based / Data‑Driven	토큰 (데이터) 도착이 연산 트리거 → 자연 병렬	TStreams, StreamC, Google Dataflow SDK	코어 병렬 알고리즘·DSP	FPGA/DSP 데이터플로 컴파일	✔ 최대 병렬도 ✘ 디버깅 난이도
	Process Control	제어 루프·피드백 기반 데이터‑제어 분리	PLC, SCADA, ROS2	IoT·산업 제어	공정 자동화, 로봇 제어	✔ 실시간 안전제어 ✘ 하드 RT 보장 필요
인프라 & 통신	Event‑Driven Microservices	각 단계 독립 서비스 + 메시지 브로커	gRPC/REST + Kafka, NATS	독립 배포·스케일	주문/결제 이벤트 파이프라인	✔ 팀 단위 자율성 ↑ ✘ 관측성·계약 관리 필수
운영 보조 기술	Backpressure & Flow‑Control	필터 간 속도 차를 제어해 버퍼 폭주 방지	Reactive Streams, Flink Watermarks	시스템 안정성	대용량 로그 스트림	✔ 메모리 보호 ✘ 조정 파라미터 복잡
	State Management	무상태 권장, 필요 시 외부 상태 저장소	RocksDB, Redis, Flink State	정확한 계산/재시작	세션 윈도 집계	✔ 정확도 ↑ ✘ 상태 크기·복제 비용

Batch Processing (Apache Spark 활용)

예시: PySpark 를 활용한 일괄 ETL 처리

1
2
3
4
5
6
7
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("daily_etl").getOrCreate()
df = spark.read.csv("s3://bucket/raw/transactions.csv", header=True, inferSchema=True)
df_clean = df.filter(df['amount'] > 0).select("id","amount","timestamp")
df_clean.write.mode("overwrite").parquet("s3://bucket/processed/transactions/")
spark.stop()

설명: 주기적으로 (raw → clean → transform) 수행되며, 대용량 데이터 처리에 최적화됨.

Stream Processing (Kafka + Flink 기반)

예시: Java + Flink 기반 실시간 스트림 처리

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
Properties props = new Properties();
props.setProperty("bootstrap.servers", "localhost:9092");
props.setProperty("group.id", "flink-group");
DataStream<String> stream = env.addSource(new FlinkKafkaConsumer<>("input-topic", new SimpleStringSchema(), props));
DataStream<String> processed = stream
    .filter(s -> s.contains("error"))
    .map(s -> s.toUpperCase());
processed.addSink(new FlinkKafkaProducer<>("output-topic", new SimpleStringSchema(), props));
env.execute("Kafka-Flink Stream");

설명: Kafka 토픽을 실시간으로 소비 → 조건 필터링/변환 → 새 토픽에 발행.

Hybrid (Lambda / Kappa Architectures)

Lambda Architecture 예시:
- Batch layer: Spark 배치 작업
- Speed layer: Flink 를 이용한 실시간 보강
- Serving layer: 합쳐진 결과 제공
Kappa Architecture 예시:
- 모든 데이터 흐름을 Kafka 스트림으로 처리, 재처리 시 재입력 및 다시 소비
- 중복 처리를 피하면서 단일 코드베이스 유지 가능.

Workflow Orchestration (Airflow DAG 예시)

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
from airflow import DAG
from airflow.providers.apache.spark.operators.spark_submit import SparkSubmitOperator
from airflow.utils.dates import days_ago

dag = DAG('etl_dag', start_date=days_ago(1), schedule_interval="@daily")

spark_task = SparkSubmitOperator(
    task_id="spark_etl",
    application="/scripts/daily_etl.py",
    conn_id="spark_default",
    dag=dag
)

설명: DAG 기반 배치 연동 & 에러 및 재시도 제어 관리.

Token-Based / Data‑Driven Execution

예시 도구: TStreams, StreamC, Google Dataflow SDK
설명: 데이터 (토큰) 유입 시 직접 트리거되어 병렬 처리 진행. ↳ DSP 나 파이프라인 구현에 유용.

Process Control (산업 & IoT 시스템)

예시: ROS2 기반 토픽/노드 구조 또는 PLC/SCADA 피드백 루프
설명: 센서 입력에 따라 실시간 제어 루프 수행. 산업 자동화, 로봇 제어에 적합.

Event‑Driven Microservices (Kafka + Microservices)

설명:
- 이벤트 발행: 서비스 1 → Kafka
- 서비스 2 → 소비 → 처리 → Kafka/postgres 저장
사례: 주문속성 이벤트 기반 마이크로서비스 파이프라인

Backpressure & State Management

예시 (Flink SQL):
- Time-window aggregation + watermarks 설정
- Kafka 스트림에서 윈도우 기반 집계 시 지연 및 backlog 조절
설명: 정확한 stateful 처리와 안정적 streaming 을 위한 핵심 기술.

장점

카테고리	항목	설명	기여 요인
설계적 가치	낮은 결합도	필터 간 인터페이스 최소화로 각 컴포넌트가 독립적으로 동작	흐름 중심 설계, 명확한 데이터 인터페이스
	모듈화	각 필터는 독립적으로 개발·테스트·배포 가능	컴포넌트 독립성
	유연한 확장성	새로운 필터의 삽입/삭제/교체가 용이하며 시스템 기능 확장에 유리	느슨한 결합 구조, 단방향 흐름 기반
운영적 효율성	병렬 처리 가능	독립적인 필터를 멀티스레드 또는 분산 환경에서 병렬 처리 가능	병렬성 설계, 비동기 실행 기반
	고처리량 처리	모듈 단위로 최적화 및 부하 분산 가능, 대규모 데이터 처리에 적합	비동기/스트리밍 처리 구조
	유연한 실행 모델	배치 처리와 스트리밍 처리 방식 모두 지원 가능	파이프라인 흐름에 기반한 유연한 제어
개발 생산성	재사용성	동일 필터 로직을 여러 워크플로우 또는 시스템 간에 공유 가능	컴포넌트화된 필터 구조
	유지보수 용이성	문제 발생 시 해당 필터만 수정/대체 가능, 영향 범위 최소화	모듈화된 구조, 필터 단위 테스트 용이성
	디버깅 및 검증 용이성	각 단계에서 데이터 로깅, 검증 포인트 설정 가능 → 오류 추적 및 분석에 유리	파이프라인 구성의 투명성, 필터별 데이터 관찰 가능
	테스트 용이성	유닛 단위 테스트가 가능하여 CI/CD 파이프라인과 통합에 유리	단일 책임 원칙, 독립 컴포넌트 구성

단점과 문제점 그리고 해결방안

단점

카테고리	항목	설명	대표 해결 방안
구조적 복잡성	흐름 제어의 복잡성	조건 분기, 병합, 이벤트 기반 흐름이 복잡하게 설계됨	조건 라우팅 필터, Flow Controller 도입
상호작용 제한	동적 상호작용 제약	필터 간 동기식 호출, 상태 공유가 어려움	메시지 브로커 (예: Kafka), 상태 저장소 (Redis 등) 활용
유지보수 비용	파이프라인 확장 시 관리 비용 증가	대형 파이프라인은 필터 수 증가로 복잡해지고 디버깅 난이도 상승	모듈화된 관리 도구 (Airflow, NiFi), 분리된 필터 디버깅 도입
상태 관리 한계	상태 보존이 어려움	무상태 구조로 인해 이벤트 순서 보장, 세션 상태 관리가 복잡	체크포인트, 이벤트 소싱, 상태 저장 스토어 (State Store) 사용
성능 문제	직렬화/파싱 오버헤드	파이프 간 메시지 전달에서 직렬화 비용이 누적되어 전체 처리 성능 저하 가능	Protobuf, Apache Arrow 등 경량 포맷 적용
데이터 형식 문제	필터 간 호환성 문제	포맷/스키마 불일치 시 예외 발생 및 처리 실패 가능	표준화된 데이터 포맷 사용 (Avro, JSON Schema), 어댑터 패턴 적용

문제점

카테고리	문제 항목	원인	영향	탐지 및 진단	예방 방법	해결 방법 및 기법
신뢰성 문제	데이터 유실	파이프 오류, ACK 미수신, 예외 누락	분석 오류, 불완전한 결과 생성	로그 모니터링, ACK 확인	Retry/ACK 시스템 연동	DLQ(Dead Letter Queue), 재처리 로직 구현
정확도 문제	데이터 중복	배치 - 스트림 중복 적재, 필터 재시도 미처리	결과 왜곡, 비용 증가	중복 Key 확인, 해시/타임스탬프 추적	Idempotent 설계, 중복 감지 파이프라인 설정	SCD2 전략, Dedup 필터 적용
성능 문제	필터 병목	특정 필터만 느린 처리 속도로 전체 흐름 지연	파이프라인 처리 속도 저하	큐 길이, 처리 시간 모니터링	동시성 확장, 병렬 분산 설계	Auto-scaling, 필터 리팩토링
안정성 문제	장애 전파	하나의 필터 오류가 전체 흐름을 차단	전체 시스템 중단	헬스 체크, SLA 모니터링	회로 차단기 (Circuit Breaker), 필터 격리	롤백, 대체 경로 우회 (Retry Path)
자원 문제	메모리 누수	장시간 실행 시 GC 실패, 큐 누적, 캐시 미해제	시스템 다운, GC Overhead 상승	Heap/GC 추적, 리소스 누수 탐지	정기적 풀링 사용, 메모리 스냅샷 검증	가비지 컬렉션 튜닝, 필터 내 메모리 해제 패턴 적용
일관성 문제	데이터 일관성 저하	필터 간 비동기 처리, 버전 불일치, 분산 동시성 이슈	비일관성 결과, 데이터 정합성 상실	체크섬 검증, 이벤트 순서 추적	버전 태깅, 트랜잭션 경계 도입	이벤트 소싱, 분산 락, 옵저버블 패턴 적용
흐름 제어 문제	Backpressure 현상	소비자 속도가 생산자를 따라가지 못해 큐/버퍼 초과	지연 증가, OOM 발생 위험	큐 길이, 처리률 모니터링	적응형 처리율 조절, 임계값 설정	백프레셔 제어 알고리즘 (Exponential Wait 등) 적용

도전 과제

카테고리	도전 과제	원인	영향	해결 방안 및 전략
1. 성능 및 실시간성	대규모 실시간 처리 성능 저하	데이터량 증가, 병렬성 부족, 지연 발생	처리 병목, 실시간 분석 지연	스트림 처리 프레임워크 도입 (Flink, Spark Streaming), 인메모리 처리, GPU/FPGA 활용
	정확도 vs 지연 트레이드오프	Lambda 아키텍처의 중복 처리 및 지연 구조	정확도 희생 또는 응답 시간 지연	Kappa 아키텍처 전환, 정교한 watermark 기반 처리
2. 일관성 및 상태 관리	스트림 상태 불안정 및 체크포인팅 문제	상태 저장소 장애, 비결정적 처리 순서	데이터 손실, 재처리 실패, 재시작 불가	정확한 상태 백업 관리, RocksDB 또는 External State Store 활용
	분산 환경 내 데이터 일관성 보장	다양한 노드/파티션에서 동시에 처리	결과 불일치, 중복 또는 유실 발생	Exactly-once 보장, Kafka + Flink 상태 일관성 설정
3. 데이터 품질 및 스키마 관리	다양한 소스와 스키마 진화 문제	형식이 상이한 이벤트, 비정형 데이터 증가	분석 정확도 하락, ML 모델 학습 실패	스키마 레지스트리 적용, JSON Schema/Avro 기반 유효성 검증
	데이터 품질 저하	이상치, 누락, 중복 데이터 유입	잘못된 분석 결과, 비즈니스 오류	품질 필터 삽입, Great Expectations, 데이터 리니지 추적
4. 흐름 제어 및 복잡성	복잡한 분기/병합 흐름 제어	다양한 조건 분기, 다중 토픽 조인, 유동적인 라우팅 구조	파이프라인 오류 발생, 관리 어려움	DAG 기반 정의, 라우팅 룰 표준화, Flink SQL 등 고수준 DSL 활용
	마이크로서비스 결합으로 인한 복잡성	서비스 간 데이터 교환 많고 흐름이 분산됨	디버깅/테스트/추적 어려움	서비스 메시 (Istio), Dapr, 메시지 지향 처리로 추상화
5. 모니터링 및 디버깅	통합 모니터링 구성의 어려움	배치, 스트림, 서빙 간 이기종 시스템 존재	병목 탐지/장애 대응 지연	Prometheus + Grafana, OpenTelemetry 기반 분산 추적 도입
	디버깅/재현성 부족	상태 기반 처리에서 재현 어려움	장애 원인 분석 난이도 상승	리플레이 가능한 로그 저장, 이벤트 소싱 기반 재처리 구조 도입
6. 거버넌스 및 규정 준수	데이터 리니지 추적 어려움	복잡한 파이프라인과 연계된 트랜스포머/모델 없음	데이터 흐름 불투명 → 감사 및 규제 대응 불가	OpenLineage, Marquez 등 lineage 시스템 구축
7. 비용 및 자원 관리	리소스 중복 및 과소/과다 프로비저닝	멀티 파이프라인/컨슈머 중복 실행	클라우드 비용 폭증, CPU/MEM 낭비	AutoScaler 설정, 워크로드 프로파일링, 버퍼 기반 트리거 조정

분류 기준에 따른 종류 및 유형

📌 분류 기준	유형	설명	주요 적용 분야
1. 구조 구성 방식	직렬 구조 (Serial Flow)	필터/모듈이 선형적으로 연결되어 데이터를 단계별로 처리	단순 파이프라인, ETL, 로그 수집
	병렬 구조 (Parallel Flow)	여러 필터가 병렬로 데이터 처리 → 성능 향상과 처리량 증가	스트리밍 분석, 복잡한 분기 처리
	혼합 구조 (Hybrid Flow)	직렬과 병렬 흐름이 혼합된 복합 처리 구조	대규모 데이터플로우 플랫폼, AI/ML 파이프라인
2. 실행 및 처리 방식	배치 순차 처리 (Batch Sequential)	일괄 수집 후 순차적으로 처리 (시간 지연 허용)	DWH, 정기 리포트, 데이터 마이그레이션
	파이프 - 필터 처리 (Pipe-and-Filter)	필터 간 데이터 흐름이 연속적으로 이어지는 구조	실시간 로그 분석, 파이프라인 변환 처리
	피드백 제어 처리 (Process Control)	처리 결과를 기반으로 동작을 조절하는 제어 기반 구조	임베디드 시스템, 제어 자동화 시스템
3. 데이터 처리 시점	실시간 (Real-time)	데이터가 도착하는 즉시 처리, 초단위 이하 지연 허용	금융 거래, IoT 센서 데이터 처리
	준실시간 (Near real-time)	몇 초 ~ 몇 분 내 처리. 일정 지연 허용	추천 시스템, 이벤트 트리거, 알림 시스템
	배치 처리 (Batch)	데이터를 일정 주기로 일괄 처리	보고서 생성, 백오피스 처리
4. 처리 아키텍처	Lambda Architecture	배치 + 스트림을 병합한 이중 처리 경로 구조	빅데이터 통합 플랫폼, 로그 분석 시스템
	Kappa Architecture	스트리밍 중심 구조. 일관된 경로로 모든 데이터 처리	이벤트 중심 시스템, 실시간 분석 플랫폼
	Event-driven Architecture	이벤트 발생을 기반으로 처리 트리거됨. 비동기 흐름에 적합	마이크로서비스, SOA, 알림 시스템
5. 배포 및 환경 구성	단일 시스템	단일 머신/프로세스 상에서 데이터 흐름 처리	로컬 테스트, 임베디드 처리
	분산 시스템	여러 머신에 필터/처리 노드가 분산 배치됨	클러스터 기반 실시간 스트리밍, MSA 환경
	컨테이너 기반 처리	각 필터/연산을 컨테이너화하여 분산 오케스트레이션 처리	Kubernetes 기반 데이터 파이프라인 운영

실무 사용 예시

카테고리	주요 사례	사용 목적	함께 사용하는 기술/도구	기대 효과 및 특징
데이터 처리 (ETL/ELT)	BI 파이프라인 구축	일 단위 데이터 집계, 클렌징, 변환	Apache Airflow, Spark, dbt, Snowflake	대용량 배치 처리, 유연한 스케줄링, 데이터 품질 확보
	로그 데이터 적재 및 분석	실시간 로그 수집, 정규화, 지표 생성	Kinesis, Kafka, Logstash, Elasticsearch, Athena	실시간 분석 + 장기 저장 병행 처리
실시간 스트리밍	IoT 센서 모니터링	온도/습도/장비 이상 탐지 등 실시간 상태 감시	Kafka, Apache Flink, InfluxDB	지연 1 초 이하 경보 시스템, CEP 가능
	사용자 행동 분석	클릭, 스크롤, 검색 로그 실시간 처리 및 세션 기반 분석	Kafka, Flink, Redis Streams	실시간 세션 분석, 마케팅 자동화
멀티미디어 처리	이미지 및 비디오 처리	변환, 필터 적용, 포맷 변경 등 스트리밍 방식의 멀티미디어 파이프라인 구성	GStreamer, FFmpeg, OpenCV	저지연 변환, 병렬처리 기반 스트리밍 편집
컴파일러	컴파일 단계 구성	소스 코드 분석 → 중간 코드 생성 → 최적화 → 코드 생성	Lexer, Parser, AST, Optimizer, LLVM	각 단계 독립 구성, 최적화 재사용 용이
서버/네트워크	웹 서버 요청 처리	요청 → 필터 체인 → 응답 패턴의 흐름 기반 처리	nginx, Apache, Express.js	라우팅, 인증, 압축 등 모듈화된 HTTP 요청 흐름
추천 시스템	실시간/배치 하이브리드 추천	이벤트 기반 피드백 반영 + 주기적 전체 모델 재학습	Kafka, Spark, Batch Job, Feature Store	정밀도 향상, 최신성 유지 (Lambda Architecture 활용)
시스템 자동화/유틸리티	UNIX 파이프라인 처리	텍스트 변환, 로그 필터링, grep/sort/awk 등 쉘 기반 파이프 연산	Bash, awk, sed, grep	단순한 구성으로도 효율적인 흐름 처리

활용 사례

사례 1: 실시간 로그 분석 시스템

시스템 구성:

로그 수집 → 필터 (전처리) → 필터 (분석) → 필터 (알림) → 출력

Workflow:

graph LR
    A[로그 수집] --> B[전처리 필터]
    B --> C[분석 필터]
    C --> D[알림 필터]
    D --> E[출력]

로그는 수집 → 전처리 → 분석 → 알림 → 출력 순으로 흐르며, 각 필터는 독립적으로 동작한다.

역할:

각 필터는 로그를 전처리, 분석, 알림 등으로 처리.

차이점:

데이터 플로우 아키텍처가 없으면 모듈화 및 확장성이 떨어지고, 유지보수가 어려움.

사례 2: Lambda 아키텍처

시스템 구성:

스트림 계층: Kafka → Flink 에서 실시간 집계
배치 계층: 하루 단위 Spark ETL→ 데이터 웨어하우스
서빙 계층: Elasticsearch 와 BI 툴 (PowerBI 등)

워크플로우:

센서·운영 로그 → Kafka
Flink 로 실시간 처리
Spark 배치로 전체 재계산
결과 서빙 → Elasticsearch/BW

역할:

스트림 계층: 실시간 알람, 즉각 반응
배치 계층: 정확한 집계/재정렬
서빙 계층: 분석 요청 대응

접근 차이:

단일 스트림: 실시간성 우위, 정확도 낮음
Lambda: 실시간 + 정확도 둘 다 향상

6.16 활용 사례

Netflix 의 실시간 추천 시스템

시스템 구성:
Netflix 는 사용자의 시청 행동을 실시간으로 분석하여 개인화된 추천을 제공하는 Data-Flow Architecture 를 구축했습니다.

시스템 구성 다이어그램:

graph TB
    subgraph "Netflix 추천 시스템"
        A[사용자 이벤트] --> B[이벤트 수집기]
        B --> C[Apache Kafka]
        C --> D[스트림 처리 필터]
        D --> E[특성 추출 필터]
        E --> F[ML 모델 필터]
        F --> G[추천 결과 필터]
        G --> H[캐시 레이어]
        H --> I[사용자 인터페이스]
        
        J[배치 처리] --> K[모델 훈련]
        K --> F
    end

Workflow:

사용자의 클릭, 시청, 평가 등의 이벤트 실시간 수집
Kafka 를 통한 이벤트 스트림 분산 처리
스트림 처리 필터에서 이벤트 정규화 및 정제
특성 추출 필터에서 사용자 선호도 특성 계산
ML 모델 필터에서 개인화 추천 생성
추천 결과 필터에서 비즈니스 규칙 적용
캐시를 통한 빠른 응답 제공

Data-Flow Architecture 의 역할:

모듈성: 각 처리 단계를 독립적인 마이크로서비스로 구현
확장성: 트래픽 증가에 따른 개별 필터의 수평 확장
실시간성: 스트림 처리를 통한 즉시 추천 업데이트
재사용성: 다양한 추천 시나리오에 동일한 필터 재활용

Data-Flow Architecture 유무에 따른 차이점:

구분	Data-Flow Architecture 적용	전통적 아키텍처
응답 시간	실시간 (< 100ms)	배치 기반 (시간~일)
확장성	개별 필터 독립 확장	전체 시스템 확장 필요
유지보수	모듈별 독립 수정	전체 시스템 영향
복구 능력	부분 장애 격리	전체 시스템 중단
개발 속도	병렬 개발 가능	순차 개발 필요

6.17 구현 예시

Netflix 추천 시스템의 핵심 구성요소를 Python 으로 구현한 예시:

  1
  2
  3
  4
  5
  6
  7
  8
  9
 10
 11
 12
 13
 14
 15
 16
 17
 18
 19
 20
 21
 22
 23
 24
 25
 26
 27
 28
 29
 30
 31
 32
 33
 34
 35
 36
 37
 38
 39
 40
 41
 42
 43
 44
 45
 46
 47
 48
 49
 50
 51
 52
 53
 54
 55
 56
 57
 58
 59
 60
 61
 62
 63
 64
 65
 66
 67
 68
 69
 70
 71
 72
 73
 74
 75
 76
 77
 78
 79
 80
 81
 82
 83
 84
 85
 86
 87
 88
 89
 90
 91
 92
 93
 94
 95
 96
 97
 98
 99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
import asyncio
import json
from abc import ABC, abstractmethod
from typing import Any, Dict, List, AsyncIterator
from dataclasses import dataclass
from datetime import datetime

# 기본 필터 인터페이스 정의
class Filter(ABC):
    """Data-Flow Architecture의 기본 필터 인터페이스"""
    
    @abstractmethod
    async def process(self, data: Any) -> Any:
        """데이터 처리 메서드"""
        pass

# 파이프 구현 - 필터 간 데이터 전송
class Pipe:
    """필터 간 데이터 전송을 담당하는 파이프"""
    
    def __init__(self, buffer_size: int = 1000):
        self.queue = asyncio.Queue(maxsize=buffer_size)
    
    async def send(self, data: Any):
        """데이터 전송"""
        await self.queue.put(data)
    
    async def receive(self) -> Any:
        """데이터 수신"""
        return await self.queue.get()

# 사용자 이벤트 데이터 구조
@dataclass
class UserEvent:
    user_id: str
    content_id: str
    event_type: str  # 'view', 'click', 'rate'
    timestamp: datetime
    duration: float = 0.0
    rating: float = 0.0

# 1. 이벤트 수집 필터
class EventCollectorFilter(Filter):
    """사용자 이벤트를 수집하고 정규화하는 필터"""
    
    async def process(self, raw_event: Dict[str, Any]) -> UserEvent:
        """원시 이벤트를 UserEvent 객체로 변환"""
        try:
            event = UserEvent(
                user_id=raw_event['user_id'],
                content_id=raw_event['content_id'],
                event_type=raw_event['event_type'],
                timestamp=datetime.fromisoformat(raw_event['timestamp']),
                duration=raw_event.get('duration', 0.0),
                rating=raw_event.get('rating', 0.0)
            )
            print(f"이벤트 수집: {event.user_id} - {event.event_type}")
            return event
        except Exception as e:
            print(f"이벤트 처리 오류: {e}")
            return None

# 2. 특성 추출 필터
class FeatureExtractionFilter(Filter):
    """사용자 행동에서 특성을 추출하는 필터"""
    
    def __init__(self):
        self.user_profiles = {}  # 실제로는 Redis 등 외부 저장소 사용
    
    async def process(self, event: UserEvent) -> Dict[str, Any]:
        """사용자 이벤트에서 특성 추출"""
        if not event:
            return None
        
        # 사용자 프로필 업데이트
        if event.user_id not in self.user_profiles:
            self.user_profiles[event.user_id] = {
                'view_count': 0,
                'total_duration': 0.0,
                'preferred_genres': {},
                'recent_content': []
            }
        
        profile = self.user_profiles[event.user_id]
        
        if event.event_type == 'view':
            profile['view_count'] += 1
            profile['total_duration'] += event.duration
            profile['recent_content'].append(event.content_id)
            
            # 최근 10개 콘텐츠만 유지
            if len(profile['recent_content']) > 10:
                profile['recent_content'] = profile['recent_content'][-10:]
        
        features = {
            'user_id': event.user_id,
            'avg_watch_duration': profile['total_duration'] / max(profile['view_count'], 1),
            'activity_level': 'high' if profile['view_count'] > 50 else 'medium' if profile['view_count'] > 10 else 'low',
            'recent_content': profile['recent_content']
        }
        
        print(f"특성 추출 완료: {event.user_id} - 활동 레벨: {features['activity_level']}")
        return features

# 3. 추천 생성 필터
class RecommendationFilter(Filter):
    """ML 모델을 사용하여 추천을 생성하는 필터"""
    
    def __init__(self):
        # 실제로는 TensorFlow, PyTorch 등의 모델 로드
        self.content_catalog = {
            'movie_1': {'genre': 'action', 'rating': 4.5},
            'movie_2': {'genre': 'comedy', 'rating': 4.2},
            'movie_3': {'genre': 'drama', 'rating': 4.7},
            'movie_4': {'genre': 'action', 'rating': 4.3},
            'movie_5': {'genre': 'comedy', 'rating': 4.0}
        }
    
    async def process(self, features: Dict[str, Any]) -> Dict[str, Any]:
        """사용자 특성을 기반으로 추천 생성"""
        if not features:
            return None
        
        user_id = features['user_id']
        activity_level = features['activity_level']
        recent_content = features['recent_content']
        
        # 간단한 추천 로직 (실제로는 복잡한 ML 모델 사용)
        recommendations = []
        
        # 활동 레벨에 따른 추천 수 조정
        rec_count = {'high': 10, 'medium': 5, 'low': 3}[activity_level]
        
        # 최근 시청하지 않은 콘텐츠 추천
        for content_id, content_info in self.content_catalog.items():
            if content_id not in recent_content:
                recommendations.append({
                    'content_id': content_id,
                    'score': content_info['rating'],
                    'genre': content_info['genre']
                })
        
        # 점수 기준 정렬 및 상위 N개 선택
        recommendations.sort(key=lambda x: x['score'], reverse=True)
        recommendations = recommendations[:rec_count]
        
        result = {
            'user_id': user_id,
            'recommendations': recommendations,
            'generated_at': datetime.now().isoformat()
        }
        
        print(f"추천 생성 완료: {user_id} - {len(recommendations)}개 추천")
        return result

# 4. 캐시 필터
class CacheFilter(Filter):
    """추천 결과를 캐시에 저장하는 필터"""
    
    def __init__(self):
        self.cache = {}  # 실제로는 Redis 등 사용
    
    async def process(self, recommendation: Dict[str, Any]) -> Dict[str, Any]:
        """추천 결과를 캐시에 저장"""
        if not recommendation:
            return None
        
        user_id = recommendation['user_id']
        self.cache[user_id] = recommendation
        
        print(f"캐시 저장 완료: {user_id}")
        return recommendation

# Data-Flow 파이프라인 구성
class RecommendationPipeline:
    """Netflix 스타일 추천 시스템 파이프라인"""
    
    def __init__(self):
        # 필터 인스턴스 생성
        self.event_collector = EventCollectorFilter()
        self.feature_extractor = FeatureExtractionFilter()
        self.recommender = RecommendationFilter()
        self.cache = CacheFilter()
        
        # 파이프 생성
        self.pipe1 = Pipe()  # EventCollector -> FeatureExtractor
        self.pipe2 = Pipe()  # FeatureExtractor -> Recommender
        self.pipe3 = Pipe()  # Recommender -> Cache
    
    async def process_event(self, raw_event: Dict[str, Any]):
        """단일 이벤트 처리"""
        # 1단계: 이벤트 수집 및 정규화
        event = await self.event_collector.process(raw_event)
        if event:
            await self.pipe1.send(event)
    
    async def run_pipeline(self):
        """파이프라인 실행 - 각 필터를 독립적인 태스크로 실행"""
        
        # 특성 추출 태스크
        async def feature_extraction_task():
            while True:
                try:
                    event = await self.pipe1.receive()
                    features = await self.feature_extractor.process(event)
                    if features:
                        await self.pipe2.send(features)
                except Exception as e:
                    print(f"특성 추출 오류: {e}")
        
        # 추천 생성 태스크
        async def recommendation_task():
            while True:
                try:
                    features = await self.pipe2.receive()
                    recommendation = await self.recommender.process(features)
                    if recommendation:
                        await self.pipe3.send(recommendation)
                except Exception as e:
                    print(f"추천 생성 오류: {e}")
        
        # 캐시 저장 태스크
        async def cache_task():
            while True:
                try:
                    recommendation = await self.pipe3.receive()
                    await self.cache.process(recommendation)
                except Exception as e:
                    print(f"캐시 저장 오류: {e}")
        
        # 모든 태스크를 동시에 실행
        await asyncio.gather(
            feature_extraction_task(),
            recommendation_task(),
            cache_task()
        )

# 사용 예시
async def main():
    """메인 실행 함수"""
    pipeline = RecommendationPipeline()
    
    # 파이프라인 시작
    pipeline_task = asyncio.create_task(pipeline.run_pipeline())
    
    # 테스트 이벤트 생성
    test_events = [
        {
            'user_id': 'user_123',
            'content_id': 'movie_1',
            'event_type': 'view',
            'timestamp': datetime.now().isoformat(),
            'duration': 1200.0
        },
        {
            'user_id': 'user_123',
            'content_id': 'movie_2',
            'event_type': 'click',
            'timestamp': datetime.now().isoformat()
        },
        {
            'user_id': 'user_456',
            'content_id': 'movie_3',
            'event_type': 'view',
            'timestamp': datetime.now().isoformat(),
            'duration': 3600.0
        }
    ]
    
    # 이벤트 처리
    for event in test_events:
        await pipeline.process_event(event)
        await asyncio.sleep(0.1)  # 약간의 지연
    
    # 결과 확인을 위한 대기
    await asyncio.sleep(2)
    
    print("=== 캐시된 추천 결과 ===")
    for user_id, recommendation in pipeline.cache.cache.items():
        print(f"사용자 {user_id}:")
        for rec in recommendation['recommendations'][:3]:  # 상위 3개만 출력
            print(f"  - {rec['content_id']} (점수: {rec['score']}, 장르: {rec['genre']})")

# 실행
if __name__ == "__main__":
    asyncio.run(main())

이 구현 예시는 Data-Flow Architecture 의 핵심 개념들을 보여줍니다:

필터 독립성: 각 필터가 독립적으로 동작하며 다른 필터의 내부 구현을 알 필요 없음
파이프를 통한 연결: 비동기 큐를 사용하여 필터 간 데이터 전송
병렬 처리: 각 필터가 독립적인 태스크로 실행되어 병렬 처리 지원
확장성: 새로운 필터 추가나 기존 필터 수정이 용이
오류 격리: 한 필터의 오류가 다른 필터에 영향을 주지 않음

12. 구현 예시 (Python 코드 예시)

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
from kafka import KafkaConsumer, KafkaProducer
from pyspark.sql import SparkSession

# 실시간 스트림 처리 (Flink 유사 PySpark Structured Streaming 예시)
spark = SparkSession.builder.appName("stream_app").getOrCreate()
df = spark.readStream.format("kafka")\
   .option("subscribe", "sensor")\
   .load()
processed = df.selectExpr("CAST(value AS STRING) as raw")\
   .filter("raw like '%alarm%'")
processed.writeStream.format("console").start()

# 배치 처리 부분 (Pyspark 예시)
batch_spark = SparkSession.builder.appName("batch_app").getOrCreate()
batch_df = batch_spark.read.json("/data/sensor/*.json")
agg = batch_df.groupBy("device_id").count()
agg.write.mode("overwrite").parquet("/data/daily_counts")

스트림에서는 이벤트 필터링·알람 처리
배치는 하루 단위 전체 데이터 집계

6.16. 구현 예시

Python 예시 (간단한 파이프라인):

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
# 필터1: 데이터 전처리
def filter1(data):
    return data.lower()

# 필터2: 데이터 분석
def filter2(data):
    return data.replace("error", "warning")

# 필터3: 데이터 출력
def filter3(data):
    print("결과:", data)

# 파이프라인 실행
data = "This is an ERROR message"
result = filter1(data)
result = filter2(result)
filter3(result)

설명:
각 필터는 독립적으로 데이터를 처리하며, 파이프라인 형태로 데이터가 흐릅니다.

7. 기타 사항

데이터 플로우 아키텍처는 이벤트 기반 아키텍처 (Event-Driven Architecture) 와 유사점이 많으나, 데이터 흐름에 더 초점을 둡니다.
실시간 데이터 처리, 분산 시스템, 데이터 파이프라인 등 다양한 분야에서 활용됩니다.

14. 적용 및 최적화 고려사항

카테고리	주의할 점	권장사항
실무 적용	시스템 복잡 증가	단계별 구축 + 모니터링 자동화
	데이터 호환성	스키마 명세, 계약 관리 (Confluent Schema Registry)
	확장성 설계	필터별 독립 서비스 배포
최적화	중복 방지	Idempotent 정의/적용
	배치 간격 조정	실시간성과 자원 비용 절충
	리소스 할당	Auto-scaling, Spot 인스턴스 활용

6.18 실무에서 효과적으로 적용하기 위한 고려사항 및 주의할 점

카테고리	고려사항	주의할 점	권장사항
아키텍처 설계	필터 간 의존성 최소화	순환 의존성 발생 방지	의존성 그래프 작성 및 검토
성능 최적화	병목 지점 식별 및 해결	모든 필터를 동일하게 확장하지 말 것	성능 프로파일링 도구 활용
데이터 관리	표준화된 데이터 스키마 정의	스키마 변경 시 하위 호환성 고려	버전 관리 및 스키마 진화 전략 수립
오류 처리	각 필터별 오류 처리 로직 구현	오류 정보 손실 방지	구조화된 로깅 및 모니터링
모니터링	실시간 성능 지표 수집	과도한 모니터링으로 인한 성능 저하	핵심 지표에 집중한 모니터링
테스트	단위 테스트 및 통합 테스트	프로덕션 환경과의 차이 간과	테스트 환경의 프로덕션 환경 근사화

6.19 최적화하기 위한 고려사항 및 주의할 점

카테고리	고려사항	주의할 점	권장사항
처리량 최적화	배치 크기 조정	너무 큰 배치로 인한 메모리 부족	동적 배치 크기 조정 알고리즘
지연시간 최적화	파이프 버퍼 크기 최적화	과도한 버퍼링으로 인한 메모리 사용량 증가	적응형 버퍼 관리
리소스 활용	CPU 및 메모리 사용량 균형	특정 리소스의 과도한 사용	리소스 모니터링 및 자동 스케일링
네트워크 최적화	데이터 압축 및 직렬화	압축으로 인한 CPU 오버헤드	압축 비율과 성능의 균형점 찾기
캐싱 전략	중간 결과 캐싱	캐시 무효화 및 일관성 문제	TTL 기반 캐시 및 이벤트 기반 무효화
확장성	수평 확장 설계	상태를 가진 필터의 확장 어려움	무상태 필터 설계 및 외부 상태 저장소 활용

8. 추가로 알아야 할 내용

데이터 플로우 아키텍처와 마이크로서비스 아키텍처의 차이점
데이터 플로우 아키텍처에서의 에러 처리 및 복구 메커니즘
실시간 데이터 처리에서의 성능 최적화 기법

9. 주제와 관련하여 주목할 내용

카테고리	주제	항목	설명
소프트웨어 아키텍처	데이터 플로우 아키텍처	모듈화	각 필터는 독립적으로 개발·테스트·배포 가능
소프트웨어 아키텍처	데이터 플로우 아키텍처	확장성	새로운 필터 추가 및 기존 필터 변경이 쉬움
실시간 처리	데이터 플로우 아키텍처	스트리밍	실시간 데이터 처리에 적합
분산 시스템	데이터 플로우 아키텍처	병렬 처리	여러 필터를 분산 환경에 배치하여 병렬 처리

17. 주제와 관련하여 주목할 내용

카테고리	주제	항목	설명
구조	패턴	Pipe-and-Filter	모듈 간 결합도를 낮추고 독립성을 높이는 핵심 아키텍처 스타일
성능	병렬성	Token 기반 처리	데이터 기반으로 실행되어 자연스럽게 병렬 처리 가능
확장성	하이브리드 모델	Lambda/Kappa	정확성과 실시간성을 균형 있게 통합하는 구조
운영	오케스트레이션	Airflow, NiFi	복잡한 파이프라인 스케줄링 및 모니터링 자동화
품질	Idempotency	재실행 안정성	중복 실행에도 동일 결과 보장하는 안전한 처리 구조
보안	데이터 흐름 보안	Encryption, Access Control	파이프 전 구간의 데이터 보호와 접근 제어

7. 주제와 관련하여 주목할 내용

카테고리	주제	항목	설명
최신 기술	클라우드 네이티브	Kubernetes 기반 배포	컨테이너화된 필터의 자동 확장 및 관리
최신 기술	서버리스 아키텍처	Function-as-a-Service	이벤트 기반 필터 실행으로 비용 최적화
최신 기술	엣지 컴퓨팅	분산 데이터 처리	네트워크 지연 감소 및 대역폭 절약
AI/ML 통합	자동 최적화	머신러닝 기반 튜닝	실시간 성능 데이터 기반 자동 파라미터 조정
AI/ML 통합	지능형 라우팅	예측 기반 부하 분산	과거 패턴 분석을 통한 효율적 데이터 라우팅
보안	데이터 암호화	파이프라인 내 암호화	데이터 전송 및 저장 시 보안 강화
보안	접근 제어	필터별 권한 관리	세밀한 권한 제어를 통한 보안 강화
성능	백프레셔 제어	적응형 흐름 제어	처리 속도 차이에 따른 동적 조절
성능	지연 최적화	제로카피 데이터 전송	메모리 복사 없는 데이터 전달로 성능 향상

8. 반드시 학습해야 할 내용

카테고리	주제	항목	설명
기초 이론	아키텍처 패턴	파이프라인 패턴	데이터 변환 단계의 연결 방법
기초 이론	동시성 프로그래밍	비동기 처리	독립적 필터 실행을 위한 동시성 기법
기초 이론	데이터 구조	큐와 스트림	파이프 구현을 위한 기본 자료구조
구현 기술	메시지 큐	Apache Kafka, RabbitMQ	분산 파이프라인 구현을 위한 메시징
구현 기술	스트림 처리	Apache Flink, Spark Streaming	실시간 데이터 처리 프레임워크
구현 기술	컨테이너화	Docker, Kubernetes	필터의 독립적 배포 및 확장
모니터링	관찰가능성	로깅, 메트릭, 추적	분산 시스템의 상태 파악
모니터링	성능 측정	처리량, 지연시간 측정	시스템 성능 평가 지표
설계 원칙	SOLID 원칙	단일 책임, 개방 - 폐쇄	유지보수 가능한 필터 설계
설계 원칙	분산 시스템	CAP 정리, BASE	분산 환경에서의 일관성 관리

18. 반드시 학습해야 할 내용

카테고리	주제	항목	설명
기본 원리	Data‑Driven Execution	데이터 도착에 따라 처리 순서 결정	전통적 제어 흐름과 구분되는 핵심 실행 모델
패턴 이해	Batch Sequential / Stream Processing	두 가지 주요 흐름 형태	유형별로 사용 시나리오와 장단점 다름
응용 기술	Kafka, Spark, Flink	Data‑Flow 구현에 사용되는 실무 도구	스트림과 배치를 함께 다룰 수 있음
성능 관리	Checkpointing & Replay	중단 대비 복구 메커니즘	장애 발생 시 처리 재시작 기반
운영 도구	Dagster / Airflow / NiFi	워크플로우 구성 도구	실제 구현과 유지관리 시 필수
보안 및 감사	Lineage / Data Contracts	데이터 흐름 추적 및 정의 계약	데이터 신뢰성과 컴플라이언스 확보

10. 반드시 학습해야할 내용

카테고리	주제	항목	설명
소프트웨어 아키텍처	데이터 플로우 아키텍처	파이프와 필터	데이터 흐름 중심의 설계 원리
실시간 처리	데이터 플로우 아키텍처	스트리밍 시스템	실시간 데이터 처리 방법
분산 시스템	데이터 플로우 아키텍처	분산 처리	필터 분산 및 병렬 처리 기법
에러 처리	데이터 플로우 아키텍처	복구 메커니즘	데이터 손실 및 에러 처리 방법

15. 추가로 학습해야 할 내용

카테고리	주제	항목	설명
Data Governance	Data Lineage	출처 추적	Data‑Flow 에서 lineage 구현 및 디버깅 이해 (en.wikipedia.org, geeksforgeeks.org, cs.cmu.edu)
Fault Tolerance	Exactly-once 처리	Idempotency & ACK	스트림 중복·누락 제어 기법 이해
CI/CD	Pipeline 배포 자동화	Terraform, Helm	아키텍처 코드화 및 무중단 배포
Security	데이터 보호 및 접근 제어	Encryption, ACL	파이프 전 구간 데이터 보안 설계

용어 정리

카테고리	용어	설명
소프트웨어 아키텍처	필터 (Filter)	데이터를 변환 또는 처리하는 모듈
소프트웨어 아키텍처	파이프 (Pipe)	필터 간 데이터를 전달하는 채널
분산 시스템	분산 처리 (Distributed Processing)	여러 시스템에 작업을 분산하여 처리
실시간 처리	스트리밍 (Streaming)	데이터를 실시간으로 처리 및 전송

용어 정리

카테고리	용어	설명
기본 개념	Pipe‑and‑Filter	데이터가 연속적으로 작은 필터 컴포넌트를 지나며 처리되는 아키텍처 구조
기본 개념	Batch Sequential	배치 단위로 순차 처리되는 데이터 플로우 방식
기본 개념	Process Control	처리 유닛과 제어 유닛이 분리된 실시간 제어 중심 구조
관련 패턴	Dataflow architecture	자료 흐름에 따라 시스템 실행이 결정되는 컴퓨터 아키텍처 (airbyte.com)
관련 패턴	Stream Processing	실시간 데이터 흐름 처리 모델, Pipe‑and‑Filter 기반
관련 패턴	Lambda Architecture	배치 + 스트림 결합 아키텍처 (airbyte.com)

16. 용어 정리

카테고리	용어	설명
아키텍처	Batch Sequential	배치 단위로 순차 처리하는 Data‑Flow 형태
아키텍처	Pipe-and-Filter	필터 컴포넌트를 파이프라인으로 연결해 데이터 처리
아키텍처	Process Control	제어 장치와 처리 유닛을 분리한 실시간 제어 구조
모델	Lambda Architecture	배치 + 스트림 병행 모델로 정확도와 실시간성 보장
모델	Kappa Architecture	스트림 중심 단일 모델, 스트림 및 리플레이 수행
개념	Idempotency	중복 실행되어도 결과 동일한 처리 특성
도구	Orchestration	파이프라인 작업 스케줄링 및 종속성 관리 도구

용어 정리

카테고리	용어	설명
핵심 개념	필터 (Filter)	입력 데이터를 변환하여 출력하는 독립적인 처리 단위
핵심 개념	파이프 (Pipe)	필터 간 데이터 전송을 담당하는 연결체 또는 채널
핵심 개념	데이터 싱크 (Data Sink)	파이프라인의 최종 출력을 받는 목적지
핵심 개념	데이터 소스 (Data Source)	파이프라인의 입력 데이터를 제공하는 원천
처리 방식	백프레셔 (Backpressure)	하위 구성요소의 처리 속도가 느려 상위로 압박이 전달되는 현상
처리 방식	파이프라이닝 (Pipelining)	여러 처리 단계가 동시에 서로 다른 데이터를 처리하는 기법
처리 방식	스트림 처리 (Stream Processing)	연속적으로 유입되는 데이터를 실시간으로 처리하는 방식
처리 방식	배치 처리 (Batch Processing)	일정량의 데이터를 모아서 한 번에 처리하는 방식
아키텍처	람다 아키텍처 (Lambda Architecture)	배치와 스트림 처리를 결합한 하이브리드 아키텍처
아키�ecture	카파 아키텍처 (Kappa Architecture)	스트림 처리만을 사용하는 단순화된 아키텍처
기술 구현	ETL (Extract, Transform, Load)	데이터 추출, 변환, 적재의 순서로 진행되는 데이터 처리
기술 구현	ELT (Extract, Load, Transform)	데이터 추출, 적재, 변환의 순서로 진행되는 데이터 처리

참고 및 출처

Dagster–Data Pipeline Design Patterns (airbyte.com, dagster.io)
Tutorialspoint–Data Flow Architecture 장점 (tutorialspoint.com)
Airbyte–Data Flow Architecture 유형 및 장단점 (airbyte.com)
GeeksforGeeks–Data Pipeline Patterns (geeksforgeeks.org)
CS.CMU–Pure Dataflow 하드웨어 관점 (cs.cmu.edu)
Wikipedia–Dataflow Architecture 특징 (en.wikipedia.org)
Wikipedia–Data Lineage (en.wikipedia.org)

참고 및 출처

Data‑Flow 개념 및 세 가지 형태 설명 (en.wikipedia.org)
장단점, 병렬성 및 실행 방식
Dataflow architecture vs von Neumann 구조 비교 (en.wikipedia.org)

참고 및 출처

Styles

Styles Batch Sequential, Pipe and Filter, Process Control 은 소프트웨어 아키텍처에서 데이터 흐름 (Data-Flow) 을 중심으로 시스템을 설계하는 대표적인 스타일이다. Batch Sequential 은 일괄 처리, Pipe and Filter 는 연속적 데이터 변환, Process Control 은 실시간 제어 및 피드백에 적합하다. 각각의 구조, 구성 요소, 작동 원리, 장단점, 실무 적용 시 고려사항을 이해하면 다양한 시스템 요구에 맞는 최적의 아키텍처를 설계할 수 있다. 핵심 개념 항목 Batch Sequential Pipe and Filter Process Control 핵심 개념 전체 데이터를 일괄 처리하고 순차적으로 모듈 실행 데이터를 연속적으로 처리하며 필터 간 파이프를 통해 전달 출력 결과를 입력으로 피드백하여 실시간 제어 수행 처리 단위 배치 단위 데이터 집합 필터 (Filter) 단위의 증분 처리 제어 단위 (센서 + 컨트롤러 + 액추에이터) 데이터 흐름 단방향, 고정된 순서의 처리 흐름 연속적 스트림 처리 (Pull 또는 Push) 루프 기반의 순환 흐름 (Feedback Loop) 동작 방식 각 단계가 완전히 종료된 후 다음 단계 실행 각 필터가 독립적으로 병렬 실행 가능 실시간 감지 → 조정 → 피드백 → 반영 반복 상태성 보통 상태 없음 (Stateless), 단계별 상태는 파일로 유지 무상태 필터 기반 처리 또는 선택적 상태 유지 가능 상태 기반 처리 필수 (시스템 상태 지속 추적) 컴포넌트 간 연결 방식 중간 파일, 큐, 임시 저장소 등 간접 연결 파이프 (Pipe) 를 통한 직접 연결 센서, 액추에이터, 컨트롤러 간 밀접 연결 병렬성 및 확장성 병렬 처리 어려움, 순차 구조 병렬성 우수, 필터 단위 확장 가능 병렬성 제한적, 실시간 응답성과 안정성이 중요 기술 예시 Airflow, Spring Batch, cron 기반 ETL Kafka, Flink, GStreamer, Unix Pipe (`cat grep 실무 적용 분야 ETL 파이프라인 - 금융 일마감 처리 - 로그 집계 - 실시간 스트리밍 파이프라인 - 미디어 변환 - 컴파일러 (프론트엔드 처리) - 임베디드 시스템 제어 IoT 자동화 - 클라우드 오토스케일링 시스템 장점 단순 명확한 처리, 디버깅 용이 모듈화, 병렬성, 재사용성, 스트림 처리 적합 실시간 제어, 동적 적응력, 외부 환경 대응 가능 단점 지연 큼, 실시간성 부족, 병목 발생 가능 복잡한 필터 설계 필요, 상태 공유 어려움 복잡한 제어 설계 필요, 높은 실시간성 요구 Batch Sequential: 전통적 일괄 처리 구조. 단순하고 명확하지만 실시간성 부족. ETL, 로그 처리 등 대량 데이터를 주기적으로 처리할 때 적합. Pipe and Filter: 유연하고 모듈화된 스트림 중심 아키텍처. 컴포넌트 재사용성과 병렬성 뛰어나며, 데이터 스트리밍/컴파일러 등 실시간 처리에 적합. Process Control: 물리 시스템이나 제어 시스템에 필수. 상태 기반의 피드백 구조로, 실시간 반응성과 지속적인 조정이 필요한 환경에 이상적. Batch Sequential vs. Pipe and Filter vs. Process Control 비교 항목 Batch Sequential Pipe and Filter Process Control 데이터 처리 방식 일괄 처리 (Batch) 스트림 단위의 점진적 처리 센서 기반 실시간 데이터 감지 및 제어 처리 흐름 제어 단계별 순차 실행 (Strict Order) 필터 독립 실행, 파이프 연결 (Loosely Coupled) 지속적 피드백 루프 기반 제어 동시성 및 실행 모델 순차적 실행만 가능 필터 단위 병렬 처리 가능 실시간 제어 루프 → 제한적 동시성 주요 구성 요소 배치 모듈, 스케줄러, 중간 저장소 (파일/DB 등) 필터 (Filter), 파이프 (Pipe), 스트림 큐 센서, 컨트롤러, 액추에이터 데이터 흐름 방향 일방향 (One-way) 일방향 스트림 처리 (Stream Push/Pull) 양방향 (센서 입력 → 제어 출력 → 피드백) 상태 관리 대부분 무상태 (Stateless), 파일 기반 중간 상태 유지 대부분 무상태, 필요 시 로컬 상태 유지 가능 상태 기반 필수 (센서값 기반 처리 상태 유지) 지연 시간 (Latency) 높음 (일괄 처리 후 전달) 낮음 (도착 즉시 처리) 매우 낮음 (즉시 제어 반응) 처리량 (Throughput) 낮음 (단계 간 대기 시간 존재) 높음 (병렬 필터 구성 가능) 중간 (I/O 와 센서 반응 속도에 따라 달라짐) 확장성 (Scalability) 제한적 (스케일 아웃 어려움) 높음 (필터 단위 수평 확장 용이) 구조적 제약으로 제한적 유지보수성 높음 (단계별 모듈 분리, 디버깅 쉬움) 높음 (모듈화 구조, 필터 재사용 가능) 낮음~중간 (센서/제어 로직 디버깅 복잡) 오류 처리 및 복구 단순 (실패 시 배치 전체 재처리 가능) 복잡 (스트림 상태 기반 오류 처리 필요) 매우 복잡 (센서 신호 오류, 루프 불안정 등 실시간 복구 필요) 적용 분야 - 데이터 웨어하우스 정산 - 보고서 생성 - 일간/월간 배치 작업 - 로그 처리 파이프라인 - 미디어 변환 시스템 - 컴파일러 (전처리~코드생성) - 임베디드 시스템 - IoT 디바이스 - 공정 자동화 및 실시간 모니터링 시스템 대표 구현 기술 Airflow, Spring Batch, CRON Apache Kafka, Apache Flink, Unix Pipeline, GStreamer RTOS, PID/Kalman Filter, ROS, MQTT, Arduino 설계 및 구현 난이도 낮음 (구현 구조 단순) 중간 (병렬 구조, backpressure 등 고려 필요) 높음 (실시간 제어 알고리즘과 장치 제어 설계 필요) 최적화 포인트 배치 주기 조정, 병렬 배치 설계, 디스크 I/O 최적화 backpressure 조정, 병렬 필터 구성, 메시지 처리량 최적화 루프 주기 튜닝, 센서 정확도 향상, 실시간 스케줄링 강점과 약점 비교 구분 Batch Sequential Pipe and Filter Process Control 강점 • 단순하고 안정적인 구조• 독립적인 모듈 테스트• 높은 신뢰성• 명확한 데이터 추적 • 높은 모듈화와 재사용성• 동시 처리로 높은 처리량• 유연한 파이프라인 구성• 증분 처리 가능 • 실시간 적응 능력• 외부 변화에 동적 대응• 안정적인 출력 유지• 자동 조정 기능 약점 • 높은 지연시간• 동시성 부족• 상호작용 불가• 실시간 처리 어려움 • 동적 상호작용 제한• 데이터 형식 표준화 필요• 동적 구성 어려움• 오류 전파 위험 • 높은 구현 복잡성• 예측 불가능한 동작• 디버깅 어려움• 안정성 보장 어려움 핵심 차이점 요약 기준 Batch Sequential Pipe and Filter Process Control 시간 흐름 느림 (대기 후 일괄) 중간 (지연 허용) 빠름 (즉시 제어 필요) 병렬성 없음 우수 (필터 단위) 제한적 (제어 루프) 복잡도 낮음 중간 높음 실무 적용 우선순위 데이터 분석/정산 스트리밍 처리/ETL 실시간 제어/IoT 구조 및 아키텍처 Batch 는 정해진 순서대로 단계별 처리, Pipe-and-Filter 는 스트림 단위로 연속 처리, Process Control 은 피드백 루프를 통한 실시간 제어 구조이다. ...

Architectures

Architectures Lambda Architecture(람다 아키텍처) 는 대용량 데이터의 정확한 분석을 위해 배치 처리와 실시간 스트림 처리를 결합한 구조로, 데이터의 신속한 처리와 정확한 결과를 동시에 제공한다. 반면 Kappa Architecture(카파 아키텍처) 는 모든 처리를 스트림 기반으로 단순화하여, 데이터 재처리와 시스템 유지보수를 용이하게 한다. 두 아키텍처는 빅데이터 환경에서 데이터 신뢰성, 확장성, 실시간성 확보를 위한 대표적인 설계 방식으로, 각각의 특징과 적용 환경에 따라 선택적으로 활용된다. 핵심 개념 Lambda Architecture 핵심 개념: 배치 계층 (Batch Layer): 대용량 히스토리컬 데이터를 정확하게 처리하는 불변 데이터 저장소 스피드 계층 (Speed Layer): 실시간 데이터 스트림을 낮은 지연시간으로 처리 서빙 계층 (Serving Layer): 배치와 스피드 계층의 결과를 통합하여 쿼리 서비스 제공 휴먼 내결함성 (Human Fault Tolerance): 코드 오류나 알고리즘 변경 시 히스토리컬 데이터 재처리 지원 Kappa Architecture 핵심 개념: ...

Processing Types

Processing Types 데이터 처리 방식은 시스템의 요구 사항에 따라 배치 (Batch), 스트림 (Stream), 하이브리드 (Hybrid) 로 구분된다. Batch Processing 은 데이터의 대량 집계와 정확성에 적합하고, Stream Processing 은 실시간 응답성과 낮은 지연 시간에 유리하다. Hybrid Processing 은 Lambda Architecture 처럼 두 방식을 조합해 실시간성과 정확성을 모두 확보하려는 전략이다. 각각은 처리량, 지연 시간, 아키텍처 복잡도 등에서 상호 보완적이며, 시스템 목적에 따라 선택 또는 병행된다. 핵심 개념 Batch는 대용량 데이터를 정확하게 처리하고, 일정 간격으로 분석과 보고서를 생성하는 데 적합하다. Stream은 지연 없이 이벤트를 실시간 처리하고, 즉시 반응해야 하는 시스템에 사용된다. Hybrid는 두 방식의 강점을 조합하여, 실시간성과 정합성이 모두 중요한 복잡한 비즈니스 도메인에서 사용된다. 예: 이상 탐지, 실시간 사용자 분석, 추천 시스템 등. 구분 Batch Processing Stream Processing Hybrid Processing 정의 일정량의 데이터를 모아서 일괄 처리 데이터가 생성되는 즉시 실시간으로 처리 배치와 스트림 방식을 병행하여 처리 지향점 정확성, 정합성 중심 실시간성, 즉시 반응 중심 정확성과 실시간성의 균형 처리 방식 고정 주기 실행 (예: 하루 1 회) 이벤트 기반으로 연속 처리 배치 레이어 + 스피드 레이어 (Lambda) / 통합 레이어 (Kappa) 주요 특징 지연 허용, 대용량 처리, 분석 최적화 낮은 지연, 빠른 대응, 상태 기반 처리 가능 복합적 요구 대응, 운영 복잡도 증가 활용 분야 리포트 생성, ETL, 통계 분석 실시간 알림, 이상 탐지, 모니터링 금융 거래 분석, 사용자 행동 예측, 마케팅 실시간 반응 시스템 등 실무 기술 스택 매핑 구성 요소 Batch Stream Hybrid (Lambda/Kappa) 엔진 Apache Spark, Hadoop MapReduce, Hive Apache Flink, Kafka Streams, Spark Streaming Lambda: Spark + Storm / Kappa: Flink 단독 사용 메시징 시스템 Kafka, Amazon Kinesis Kafka, Pulsar, RabbitMQ Kafka (공통 메시지 버퍼링), Kinesis 저장소 HDFS, Amazon S3, RDBMS NoSQL, Elasticsearch, Redis 데이터 레이크 + 실시간 인덱싱 레이어 스케줄링 Airflow, Oozie Kafka Consumer, Flink Job 조합: Airflow + Flink / Kappa 구조에서는 Flink 단독 사용 서빙 레이어 Presto, Druid, BI 도구 Redis, Elasticsearch Redis + Druid/ES 통합 서빙 실무 적용 사례 및 고려 사항 구분 적용 사례 처리 우선순위 적합성 설명 Batch 월간 리포트 생성, 로그 정제 및 보관 정합성 우선 대량 데이터 처리에 적합하며, 처리 지연 허용 가능 Stream 실시간 트래픽 분석, 센서 데이터 모니터링 반응 속도 우선 지연이 적고 상태 기반 처리가 필요한 실시간 이벤트 처리에 적합 Hybrid 광고 클릭 분석, 이상 금융 거래 탐지 정합성 + 실시간성 정확성과 즉시 반응이 동시에 필요한 복합적 시스템에 최적화 하위 처리 기준 비교 기준 Batch Stream Hybrid 지연 허용 여부 있음 (분 ~ 시 단위) 없음 (ms ~ s 단위) 부분 허용 정확성 ✅ ❌ ✅ 실시간성 ❌ ✅ ✅ 구현 복잡도 낮음 보통 높음 운영 복잡도 단순 보통 복잡 아키텍처 연계 요약 처리 방식 연계 아키텍처 설명 Batch ETL Pipeline, Data Warehouse 데이터 수집 → 변환 → 적재 → 분석 (정기적 리포트 등) Stream Event-Driven, Reactive 실시간 이벤트 수신 및 처리, CEP 등 이벤트 흐름 중심 구조 Hybrid Lambda, Kappa Architecture Lambda: 배치 + 스피드 레이어 / Kappa: 단일 스트림 기반 배치 + 실시간 통합 구조 Batch Processing vs. Stream Processing vs. Hybrid Processing 비교 각 처리 방식은 데이터의 시간적 특성과 비즈니스 요구사항에 따라 선택된다. 배치 처리는 정확성과 효율성을, 스트림 처리는 실시간성과 반응성을, 하이브리드 처리는 두 방식의 균형을 추구한다. ...