Data Science and Engineering Overview

Data Science and Engineering

데이터 과학 및 엔지니어링은 데이터 라이프사이클에 기반한 협업 분야이다.
데이터 엔지니어는 데이터 수집 (Ingestion), 변환 (ETL/ELT), 저장 (Data Lake/Warehousing), 제공 (API/ML 모델 입력) 을 설계·구축하며, 데이터 과학자는 통계, 머신러닝·딥러닝, 시각화를 통해 비즈니스 인사이트를 도출한다. 두 역할의 협업은 이상치 처리, 피처 엔지니어링, 실험 설계, 모델 운영 (MLOps) 을 통해 데이터 기반 시스템의 확장성과 정확성을 보장한다. 신뢰성 높은 데이터 아키텍처가 기반이 되며, 도구로는 Spark, Kafka, Airflow, Databricks, TensorFlow 등이 사용된다.

핵심 개념

카테고리	개념	설명
1. 데이터 사이언스 (Data Science)	데이터 과학 (Data Science)	데이터로부터 패턴·인사이트·예측을 도출하는 학문. 통계학, 머신러닝, 시각화 포함.
	머신러닝 (Machine Learning)	데이터를 기반으로 예측/판단을 자동화하는 알고리즘. 분류, 회귀, 클러스터링 등 포함.
	피처 엔지니어링 (Feature Engineering)	모델 성능 향상을 위한 유의미한 특성 추출 및 가공 기법.
	CRISP-DM	데이터 마이닝 및 분석 프로젝트 수행을 위한 표준 프로세스 (6 단계 모델).
2. 데이터 엔지니어링 (Data Engineering)	데이터 엔지니어링	데이터 수집, 저장, 처리, 전송을 위한 시스템과 파이프라인 구축 및 운영.
	데이터 파이프라인 (Data Pipeline)	데이터 흐름 자동화를 위한 시스템. 수집 → 처리 → 저장 → 전달.
	ETL / ELT	ETL: 추출 - 변환 - 적재 / ELT: 추출 - 적재 - 변환 방식. 데이터 전처리 전략.
	데이터 아키텍처 (Data Architecture)	데이터의 저장·이동·구조를 설계하는 프레임워크. 예: 레이크, 웨어하우스, 허브 등.
	데이터 레이크 vs 웨어하우스	Data Lake: 비정형 중심 저장소 / DW: 구조화된 분석 중심 저장소.
3. 분석 및 시각화 (Analytics)	데이터 분석 (Data Analysis)	데이터를 정제·변환·시각화하여 통찰 도출. BI 도구, 시각화 프레임워크와 함께 사용.
	빅데이터 (Big Data)	전통적 DB 로 처리 불가능한 대용량·다양성·속도를 지닌 데이터. Hadoop, Spark 등으로 처리.
4. 시스템/플랫폼 운영 (Operations)	MLOps	머신러닝 모델의 배포, 운영, 모니터링 및 재학습 자동화. DevOps 와 ML 의 통합 문화.
	분산 컴퓨팅 (Distributed Computing)	대규모 데이터 처리를 위한 분산형 시스템 설계. Spark, Hadoop 등이 대표적.
5. 거버넌스 및 라이프사이클 (Governance)	데이터 수명주기 (Data Lifecycle)	데이터의 생성, 수집, 저장, 분석, 폐기까지 전 과정의 흐름 및 관리.

엔지니어링은 데이터 흐름의 기반 (수집→처리→저장→제공) 을 구축하고,과학은 이를 분석·예측하여 비즈니스 인사이트를 추출한다.
최신 기술은 자동화, 실시간성, 확장성, 품질 보증, 거버넌스에 집중되고 있으며, 전략적으로는 MLOps, Data Mesh, Kappa Architecture 등의 적용이 실무를 진화시키고 있다.

배경

데이터 과학 및 엔지니어링은 빅데이터, 클라우드, IoT, 인공지능 등 신기술의 발전과 함께 등장한 분야로, 데이터 기반 의사결정과 비즈니스 혁신의 핵심 역할을 담당한다.

목적 및 필요성

데이터 기반 의사결정:
데이터로부터 인사이트를 도출해 비즈니스, 과학, 공공 분야 등에서 의사결정을 지원한다.
비즈니스 혁신 및 경쟁력 강화:
데이터 분석을 통해 새로운 서비스 개발, 고객 경험 개선, 비용 절감 등이 가능하다.
인프라 구축 및 관리:
대규모 데이터를 효율적으로 수집, 저장, 처리, 분석할 수 있는 인프라가 필요하다.

주요 기능 및 역할

데이터 수집 및 저장:
다양한 소스로부터 데이터를 수집, 저장한다.
데이터 처리 및 변환:
데이터를 정제, 변환, 통합하여 분석 가능한 형태로 만든다.
데이터 분석 및 시각화:
- 데이터로부터 인사이트를 도출하고, 이를 시각화하여 전달한다.
인프라 설계 및 관리:
- 데이터 파이프라인, 데이터 웨어하우스, 데이터 레이크 등 인프라를 설계·관리한다.

특징

융합적 접근:
컴퓨터 과학, 통계, 수학, 비즈니스 지식이 융합된다.
실무 중심:
실제 데이터와 문제를 다루는 실무 경험이 중요하다.
지속적 진화:
빅데이터, 인공지능, 클라우드 등 신기술과 함께 빠르게 진화한다.

핵심 원칙

데이터 품질:
데이터의 정확성, 완전성, 일관성, 신뢰성을 보장한다.
확장성:
대규모 데이터를 효율적으로 처리할 수 있도록 시스템을 설계한다.
보안 및 프라이버시:
데이터 보호와 개인정보 보호를 위한 조치를 마련한다.
자동화:
데이터 수집, 처리, 분석 과정을 자동화하여 효율성을 높인다.

주요 원리

현대 데이터 아키텍처의 기본 원칙으로는 확장성, 유연성, 보안이 있다:

확장성 (Scalability): 데이터 볼륨 증가에 따른 수직적, 수평적 확장 지원
유연성 (Flexibility): 새로운 데이터 소스와 기술 통합 지원
보안 (Security): 모든 레벨에서 데이터 보안 및 접근 제어
데이터 접근성: 필요시 사용자가 데이터에 접근할 수 있도록 보장

데이터 파이프라인

데이터 파이프라인: 데이터가 소스에서 목적지 (분석 시스템) 까지 자동으로 흐르는 구조.
수집→스테이징→처리→저장→소비 흐름을 가지며, 설계 원칙에 따라 모듈화되고 확장 가능하며 신뢰성을 갖추어야 한다.
단계별 흐름:
1. 수집 (Ingestion): API, 로그, 센서 등에서 원시 데이터 획득
2. 스테이징 (Staging/Raw 저장소): 간단한 정제 후 원본 저장
3. 정제 및 처리 (Preparation/Transform): ETL/ELT, 이상치 제거, 스키마 통합
4. 저장 및 제공 (Storage/Serving): Data Lake <-> Data Warehouse
5. 소비 (Consumption): 분석, BI, 머신러닝, 애플리케이션

flowchart LR
  src[Data Source] --> ingest[Ingestion]
  ingest --> staging[Raw Zone]
  staging --> transform[ETL/ELT Transform]
  transform --> storage[Data Lake / Warehouse]
  storage --> consume[BI / ML / Apps]

전체 아키텍처 개요

데이터 과학 및 엔지니어링 아키텍처는 아래 계층들로 구성된다:

계층	주요 요소	설명
데이터 수집	Kafka, Flume, API	원시 데이터 스트리밍/배치 수집
스테이징/스테이지존	S3, HDFS, Blob	원천 데이터를 임시 보관
처리	Spark, Flink, Beam	정제, 피처 생성, 배치/스트리밍 처리
저장 및 제공	Data Lake, DW, OLAP, NoSQL	분석/머신러닝 모델 준비된 데이터 보관
오케스트레이션	Airflow, Luigi, Argo	파이프라인 워크플로우 관리
모델 및 소비 계층	Jupyter, Tensorflow Serving, PowerBI	ML 모델 배포, 분석, 시각화
메타·보안·모니터링	Data Catalog, Lineage, IAM, Audit	데이터 거버넌스와 보안 체계 관리

graph TD
  subgraph Data Ingestion
    A[Source Systems] --> B[Kafka / API / Batch Load]
  end
  subgraph Landing Zone
    B --> C["Raw Storage (S3/HDFS)"]
  end
  subgraph Processing
    C --> D[ETL/ELT Spark/Flink]
    D --> E[Feature Store]
  end
  subgraph Storage & Serving
    E --> F[Data Warehouse / OLAP]
    E --> G[ML Model Training]
  end
  subgraph Consumption
    F --> H[BI / Dashboards]
    G --> I[Model Serving / Predictions]
  end
  subgraph Governance & Orchestration
    D --> J[Airflow Orchestration]
    C --> K[Data Catalog & Lineage]
    All --> L[IAM / Audit / Monitoring]
  end

구현 기법

카테고리	기법	정의	구성 요소	목적	대표 기술/툴	실무 적용 예시
데이터 이동/수집	ETL (Extract → Transform → Load)	데이터를 정제 후 적재하는 전통적 파이프라인 방식	추출 모듈, 변환 로직, 적재 모듈	품질 높은 데이터 적재	Airflow, Spark, dbt, Talend	CRM 데이터 → DWH 로 이관
	ELT (Extract → Load → Transform)	대용량 데이터를 원본 그대로 적재 후 나중에 변환	저장소, 인메모리 처리 엔진	클라우드 분석, 스케일 대응	Snowflake, BigQuery, dbt	IoT 원시 데이터 → S3 후 Spark 로 변환
	데이터 수집 자동화	다양한 소스에서 실시간/정기 데이터 수집 자동화	커넥터, API, 데이터 브로커	반복작업 자동화	Apache NiFi, Fivetran	SaaS → DB 연동
데이터 처리	배치 처리 (Batch Processing)	일정 시간 단위로 데이터를 일괄 처리	스케줄러, 처리 모듈, 적재	대용량 집계, 리소스 최적화	Airflow, Spark, Cron	일일 매출 집계 리포트 생성
	스트림 처리 (Stream Processing)	실시간 이벤트 기반 데이터 처리	Kafka, Flink, Spark Streaming	실시간 탐지, 즉시 반응	Kafka, Flink, AWS Kinesis	실시간 이상 거래 탐지
	분산 처리 (Distributed Processing)	대규모 데이터의 병렬/분산 처리	클러스터, 처리 노드, 스케줄러	고성능 처리, 확장성	Apache Spark, Hadoop	대규모 로그 분석 (TB 단위)
머신러닝 운영	MLOps	모델 배포 및 운영 자동화	모델 등록, 모니터링, 재학습	모델 재현성, 지속 운영	MLflow, Kubeflow, Vertex AI	예측 모델 자동 재배포
	Feature Store	머신러닝 특성 저장소 관리	피처 등록, 버전 관리, API	일관된 특성 제공	Feast, Tecton	고객 피처 공유 및 서빙
데이터 관리	데이터 거버넌스	메타데이터, 계보, 권한, 품질 관리	Data Catalog, IAM, Lineage 엔진	컴플라이언스, 감사 추적	Apache Atlas, Amundsen, DataHub	GDPR 대응을 위한 개인정보 흐름 추적
	자동화 오케스트레이션	파이프라인 워크플로우 자동 실행	DAG, 트리거, 에러 핸들러	신뢰성 높은 처리 자동화	Airflow, Prefect, Argo	DAG 기반 ETL 흐름 설계
데이터 활용/소비	데이터 시각화 및 분석	분석 결과를 시각화 및 공유	대시보드, 시각화 도구	인사이트 전달	Tableau, Power BI, matplotlib	KPI 분석 보고서 생성
	모델 서빙	실시간/배치로 모델 결과 제공	Serving API, 컨테이너	예측 결과 서비스	TensorFlow Serving, FastAPI	추천 API + 웹 서비스 연동

ETL/ELT 구분은 데이터 처리 위치와 방식에 따라 성능 및 유연성에서 차이가 난다.
배치 vs 스트림 처리는 데이터 발생 주기와 분석 목적에 따라 선택한다.
MLOps는 개발 - 운영 간 협업을 강화하며, Feature Store는 재현성과 협업의 핵심 도구이다.
오케스트레이션 툴은 단일 작업뿐 아니라 장애 대응, 의존성 처리, 재시도 정책까지 관리 가능하다.

장단점

장점

항목	설명
데이터 기반 의사결정	정량적 인사이트로 전략적 판단을 지원하고 비즈니스 혁신 유도
비즈니스 가치 창출	데이터 분석을 통해 수익 창출 기회를 도출하고 신사업 가능성 발굴
자동화 및 재현성	ETL/ELT 파이프라인과 오케스트레이션으로 반복 가능하고 안정적인 처리 구현
운영 효율성 향상	자동화된 흐름으로 수작업 최소화, 처리 시간 단축
예측 분석 가능	머신러닝 기반 분석을 통해 수요 예측, 트렌드 분석 가능
확장성	클라우드 기반 인프라 및 분산 처리로 데이터 증가에도 유연 대응
협업 강화	Feature Store, 메타데이터 관리 등을 통해 데이터 과학자·엔지니어 간 협업 용이
모델 일관성 유지	데이터 정의 및 파이프라인 일관성 유지로 재현 가능하고 안정적인 모델 운영 가능

단점

단점 항목	설명	해결 방안
초기 비용 부담	인프라, 도구, 인력 확보 등 초기 구축에 상당한 비용 발생	🔧 단계적 도입, 클라우드 관리형 서비스 활용, PaaS 기반 요금 최적화
기술 스택 복잡성	다양한 도구와 컴포넌트로 인해 시스템 통합 및 설계 복잡	🔧 IaC + CI/CD 도입, 표준화된 도구/플랫폼 채택, 오케스트레이션 도구 활용
성능 병목 가능성	병렬성 부족, 비효율적 파이프라인 구성으로 처리 지연 발생	🔧 병렬 처리 및 캐싱 적용, Spark/Dask 등 분산 처리 도입, 성능 분석 도구 활용
데이터 품질 문제	불완전·부정확한 데이터로 인해 분석 결과 신뢰성 저하	🔧 데이터 표준화, 품질 관리 프로세스 수립, 데이터 거버넌스 및 자동 품질 진단 시스템
보안 및 개인정보 위험	민감 데이터 처리로 인해 유출, 위변조, 법적 이슈 발생	🔧 암호화, 접근 제어 (RBAC/ABAC), 데이터 마스킹 및 보안 감사 체계 구축
전문 인력 부족	데이터 엔지니어·과학자 확보 어려움, 운영 부담 가중	🔧 내부 교육 프로그램 운영, 외부 전문가와 파트너십, 기술 문서화 및 협업 체계 강화
유지보수 및 운영 복잡도	파이프라인 버전 충돌, 의존성 문제, 시스템 관리 부담	🔧 모듈화 설계, 로깅 및 테스트 자동화, 통합 모니터링 및 운영 대시보드 구축

문제점 및 해결 방안

문제/과제 항목	설명	대응 방안
스키마 불일치	소스 시스템 변경, 예외값 등으로 인해 데이터 스키마가 변형되어 ETL 오류 발생	Apache Avro/Protobuf 사용, 스키마 레지스트리 도입, 유효성 검증 자동화
모델 편향 및 공정성 문제	학습 데이터의 불균형으로 인해 모델이 특정 그룹에 편향되는 현상	SHAP, LIME 등 해석 가능한 모델 도구 활용, 데이터 리샘플링 및 편향 탐지
로그 누락 및 추적 불가	로깅 설정 미흡으로 장애 발생 시 디버깅 곤란	JSON 기반 구조화 로그, 필수 필드 체크 자동화, 로깅 테스트 포함 CI
모델 운영 불일치	실험 환경 (Jupyter) 과 운영 환경이 달라 모델 일관성 문제 발생	MLflow + Docker 기반 모델 배포 자동화, 모델 아티팩트 버전 관리
협업 불일치	데이터 엔지니어와 데이터 과학자 간의 흐름·표준·책임이 불명확	Feature Store, 데이터 버전 관리 (Git), 데이터 카탈로그 및 역할 정의
데이터 통합 복잡도	다양한 포맷 및 저장소에서 수집된 데이터를 통합 처리하는 데 구조적 문제	표준 포맷 (CSV, JSON, Parquet) 통일, API 기반 ETL, 가상 데이터 레이어 활용

도전 과제

도전 과제	설명	해결 방안
실시간 처리 확장	배치 중심 구조에서 스트리밍 처리 전환이 요구됨	Kafka + Flink 기반 스트리밍 아키텍처, Auto-scaling 및 Circuit Breaker 적용
데이터 거버넌스 고도화	컴플라이언스, 접근 통제, 변경 이력 추적 등의 필요성 증가	Data Lineage, RBAC 정책, 감사 로그 및 변경 추적 도구 도입
확장성 기반 재설계	기존 시스템이 수평 확장을 고려하지 않은 구조일 경우 병목 발생	컨테이너 기반 마이크로서비스, 메시지 큐 기반 비동기 처리
하이브리드 환경 전환	온프레미스 ↔ 클라우드/멀티클라우드 환경으로 전환하는 복잡성	점진적 마이그레이션 전략, 클라우드 네이티브 도구 채택 (Terraform, Helm 등)
AI 통합 및 운영 자동화 (MLOps)	ML 실험/검증/배포/모니터링의 자동화가 미흡	MLflow + Airflow, Feature Store, 컨테이너 기반 MLOps 파이프라인 구축

분류 기준에 따른 종류 및 유형

분류 카테고리	분류 기준	유형	설명	대표 사용 사례
1. 처리 방식 (Processing Method)	처리 유형	배치 처리 (Batch Processing)	일정 주기로 대량의 데이터를 일괄 처리하는 방식	일일 보고서 생성, 야간 ETL, 월간 매출 통계
		스트림 처리 (Stream Processing)	실시간으로 데이터가 유입되는 즉시 처리	실시간 로그 분석, 이상 탐지, 실시간 알림
		마이크로 배치 (Micro-batch)	짧은 시간 간격으로 작은 데이터 묶음을 처리	Spark Structured Streaming 기반 준실시간 처리
2. 아키텍처 스타일 (Architectural Style)	설계 구조	람다 아키텍처 (Lambda)	배치 + 스트림 처리를 통합하여 정확성과 실시간성 동시 보장	복합 분석 플랫폼 (예: Fraud detection + 집계 리포트)
		카파 아키텍처 (Kappa)	스트림 처리만을 중심으로 모든 분석을 처리	이벤트 기반 분석 시스템 (IoT, 실시간 피드)
		델타 아키텍처 (Delta)	데이터 레이크에 ACID 트랜잭션과 변경 이력 기능을 결합한 아키텍처	데이터 분석 및 ML 학습 이력 관리 (예: Databricks Delta Lake)
3. 파이프라인 구조 (Pipeline Structure)	구성 방식	모놀리식 (Monolithic)	ETL 전 과정을 하나의 덩어리로 구성	단일 서버 기반 ETL 시스템
		모듈형 (Modular)	각 단계 (Extract, Transform, Load) 를 분리한 구조	Airflow, Prefect 기반의 단계별 파이프라인 구성
		마이크로서비스 기반 (Microservices)	각 파이프라인 기능을 독립적인 서비스로 구성	이벤트 기반 데이터 처리 시스템 (Kafka + Kafka Connect 등)
4. 배포 환경 (Deployment Environment)	인프라 환경	온프레미스 (On-premise)	자체 IDC 혹은 사내 인프라를 통한 운영	금융기관 내부망 분석 시스템, 내부 보안 시스템
		클라우드 (Cloud)	퍼블릭 클라우드의 관리형 서비스를 활용한 배포	AWS Glue, Google Dataflow, Azure Synapse
		하이브리드 (Hybrid)	온프레미스와 클라우드를 병행하여 구성	점진적 클라우드 이전, 민감 정보는 내부 처리, 나머지 외부 분석
5. 저장 구조 (Storage Architecture)	저장 방식	데이터 웨어하우스 (Data Warehouse)	정형 데이터를 정제하여 저장하는 OLAP 최적화 구조	Snowflake, BigQuery, Amazon Redshift 등
		데이터 레이크 (Data Lake)	원시 데이터를 다양한 포맷으로 저장 가능, 정형/비정형 포함	S3 + Athena, Azure Data Lake, GCP Cloud Storage
		데이터 메쉬 (Data Mesh)	도메인 중심 데이터 분산 및 자율 운영 구조	대규모 조직의 부서별 자체 데이터 파이프라인 운영 구조
6. 오케스트레이션 방식 (Orchestration Strategy)	실행 트리거	스케줄 기반 (Scheduling)	지정된 시간/주기로 파이프라인을 실행	Cron + Airflow DAGs, 정기 리포트 생성
		이벤트 기반 (Event-driven)	이벤트 발생 시 파이프라인이 트리거됨	Kafka 이벤트 → S3 적재 → 알림 전송
		워크플로우 기반 (Workflow-centric)	여러 작업 간 의존성 정의 및 조건부 흐름 구성	DAG 기반 다단계 워크플로우 (예: Airflow, Dagster 등)
7. 데이터 소스 (Data Source Type)	데이터 구조 유형	구조화 데이터 (Structured)	스키마가 명확한 데이터 (예: RDB, CSV)	고객 DB, ERP 시스템 데이터
		반구조화 데이터 (Semi-structured)	JSON, XML 등 계층 구조가 있으나 스키마가 유동적인 데이터	웹 로그, 센서 로그, API 응답 데이터
		비구조화 데이터 (Unstructured)	이미지, 동영상, PDF 등 스키마가 없는 데이터	문서 인식 처리, 영상 분석, 텍스트 마이닝
8. 분석 목적 (Analytics Goal)	분석 목표	기술 분석 (Descriptive)	과거 데이터 요약 및 시각화 분석	매출 리포트, 사용자 행동 분석
		예측 분석 (Predictive)	머신러닝을 통해 미래 예측	수요 예측, 이탈 예측
		설명 분석 (Explainable)	인사이트 도출, 인과 관계 설명 중심 분석	KPI 영향 요인 분석, 원인 분석 리포트
		탐색적 분석 (Exploratory)	데이터 구조 및 분포 탐색	신규 비즈니스 모델 탐색, 가설 수립을 위한 탐색적 분석
9. 산업 도메인 (Industry Vertical)	적용 산업	금융 (Finance)	거래 분석, 사기 탐지, 규제 준수 분석	AML, 리스크 관리 시스템
		제조 (Manufacturing)	품질 예측, 생산 최적화	설비 예지 정비, 불량률 분석
		의료 (Healthcare)	환자 데이터 분석, 예후 예측	질병 예측, EMR 분석
		공공 (Public Sector)	행정/통계 데이터 활용	인구통계 분석, 교통 데이터 시뮬레이션

실무 적용 예시

도메인	활용 목적	주요 기술 스택	활용 방식	비즈니스 효과
전자상거래	개인화 추천, 구매 전환율 향상	Kafka, Spark, Redis, TensorFlow	사용자 행동 분석 + 추천 모델 실시간 서빙	매출 증가, 이탈률 감소, 고객 만족도 향상
금융	실시간 이상 거래 탐지, 리스크 분석	Flink, Elasticsearch, ML 모델, Kafka	스트리밍 데이터 기반 이상 패턴 감지 및 자동 알림	사기 거래 차단, 리스크 대응 시간 단축
제조업	장비 이상 예측, 생산성 최적화	IoT, Time Series DB, SageMaker, MQTT	센서 데이터 수집 → ML 기반 예지 정비 → 생산 계획 최적화	다운타임 감소, 유지보수 비용 절감
헬스케어	환자 모니터링, 진단 보조	HL7 FHIR, Apache NiFi, PowerBI, AutoML	실시간 생체 데이터 분석, 병원 진단 기록 기반 보조 진단 시스템 구축	응급상황 조기 감지, 의료 서비스 품질 향상
리테일/유통	판매 트렌드 분석, 재고 최적화	Spark, Delta Lake, Tableau, Feature Store	지역별/제품별 매출 패턴 분석 → 재고 정책 자동화	재고 비용 절감, 공급망 효율성 개선
미디어/콘텐츠	콘텐츠 소비 패턴 분석, 사용자 반응 예측	Hadoop, TensorFlow, Keras	사용자 시청 이력 분석 + 시청률 예측 모델 학습	프로그램/광고 효율 최적화, 고객 타겟팅 정확도 향상
광고/마케팅	캠페인 반응 예측, 고객 세분화	Airflow, Feast, ML 모델, A/B 테스트 플랫폼	실험군 기반 캠페인 테스트 + 클릭률/전환율 예측	광고 ROI 향상, 예산 최적 분배
물류/운송	경로 최적화, 배송 ETA 예측	GPS API, Graph Algorithms, XGBoost	실시간 교통 데이터 + 과거 배송 패턴 분석 → 동적 경로 추천	배송 지연 감소, 연료비 절감, 고객 만족도 향상
공공/정부	인구 통계 기반 정책 수립, 공공 안전 예측	GIS 데이터, Spark, 머신러닝 기반 통계 분석 도구	범죄 발생 예측, 인구밀도 기반 자원 재배치	정책 효율화, 사회적 비용 절감
에너지/환경	에너지 수요 예측, 이상 소비 탐지	Smart Meter + IoT, 시계열 예측 모델, 데이터 레이크	에너지 사용 패턴 분석 + 이상 탐지 → 부하 분산 및 요금 최적화	전력 낭비 감소, 탄소 배출 절감

Data Science and Engineering은 도메인별 특화 목적에 따라 기술을 달리하며 적용된다.
단일 기술이 아닌 조합된 파이프라인 (데이터 수집 → 처리 → 분석 → 시각화/예측) 이 실무 효과를 창출한다.
핵심은 데이터를 통한 자동화된 의사결정과 가치 창출이다.

활용 사례

사례 1: 우버의 실시간 위치 추적 시스템

시스템 구성:

graph TB
    subgraph "데이터 수집"
        A1[드라이버 앱] --> B1[Kafka]
        A2[승객 앱] --> B1
        A3[GPS 센서] --> B1
    end
    
    subgraph "실시간 처리"
        B1 --> C1[Apache Flink]
        C1 --> C2[위치 매칭 알고리즘]
        C2 --> C3[ETA 계산]
    end
    
    subgraph "데이터 저장"
        C3 --> D1[Redis Cache]
        C3 --> D2[Cassandra]
        C3 --> D3[Hadoop HDFS]
    end
    
    subgraph "서비스"
        D1 --> E1[실시간 매칭 API]
        D2 --> E2[운전자 대시보드]
        D3 --> E3[분석 리포트]
    end

Workflow:

모바일 앱에서 GPS 위치 데이터를 Kafka 로 스트리밍 전송
Flink 가 실시간으로 위치 데이터를 처리하여 승객 - 드라이버 매칭
Redis 에 실시간 위치 정보 캐싱으로 빠른 응답 제공
Cassandra 에 운행 기록 저장, HDFS 에 장기 분석용 데이터 보관

Data Science and Engineering 의 역할:

데이터 엔지니어링: 초당 수백만 건의 위치 데이터 실시간 처리 파이프라인 구축
데이터 과학: 최적 경로 알고리즘, 수요 예측 모델, 동적 가격 책정 모델 개발
MLOps: 실시간 매칭 모델의 지속적 모니터링 및 성능 최적화

사례 2: 금융권 이상 거래 탐지 시스템

시스템 구성:

데이터 소스: 거래 DB, 로그
데이터 수집: Kafka
데이터 저장: Hadoop
데이터 처리: Spark
데이터 분석: Python, Scikit-learn
시각화: Tableau

Workflow:

거래 데이터 수집 → 데이터 저장 → 데이터 처리 → 이상 거래 탐지 모델링 → 탐지 결과 시각화 및 보고

역할:

데이터 엔지니어: 데이터 수집, 저장, 처리 인프라 구축
데이터 과학자: 이상 거래 탐지 모델 개발 및 분석
비즈니스 분석가: 분석 결과 해석 및 보고

graph TD
    A[거래 DB/로그] --> B[Kafka]
    B --> C[Hadoop]
    C --> D[Spark]
    D --> E[Python/Scikit-learn]
    E --> F[Tableau]

실무에서 효과적으로 적용하기 위한 고려사항 및 주의할 점

카테고리	고려사항	주의할 점	권장사항
1. 데이터 품질 및 거버넌스	데이터 오류, 누락, 중복	이상 데이터로 인한 분석 왜곡	데이터 표준화, 자동 검증 프로세스, 데이터 계약 (Data Contract) 체계 도입
	민감 데이터 보호 및 규제 대응	GDPR, CCPA 등 법률 미준수 위험	필드 단위 암호화, 접근 제어, 마스킹, 감사 로그 및 법적 준수 체크리스트 적용
2. 인프라 및 확장성	대규모 처리 및 비용 효율성	과도한 초기 인프라 투자 또는 스케일링 한계	클라우드 기반 확장성 확보 (예: AWS Glue, GCP Dataflow), 분산처리 프레임워크 활용
	시스템 복원력 및 장애 대응	재처리 복잡성, 장애 발생 시 추적 어려움	상태 기반 DAG (Airflow), Retry 정책, 체크포인트 및 장애 복구 자동화
3. 협업 및 조직 체계	데이터 팀 간 협력 (엔지니어, 분석가 등)	부서 간 사일로 (Silo), 책임 불명확	명확한 역할 분담 (R&R), 정기적인 크로스펑셔널 회의, 협업 도구 (Git, Notion 등) 활용
	모델 및 파이프라인 버전 관리	스키마 불일치, 모델 재현성 부족	Git + DVC(Data Version Control) 병행, 모델 아티팩트 관리 체계 도입
4. 워크플로우 및 자동화	ETL 오류 및 파이프라인 신뢰성	수동 복구, 실패 처리 누락	워크플로우 기반 설계 (DAG), 오류 감지 자동화, 로그 기반 모니터링
	모델 운영 자동화 (MLOps)	실험과 운영 환경 간 불일치	MLflow, CI/CD, 컨테이너 기반 모델 배포 및 운영 관측 시스템 구축
5. 기술 선정 및 관리 전략	도구/프레임워크 선택 전략	과도한 도구 사용 → 기술 부채	요구사항 기반 최소 구성, 검증된 오픈소스 및 커뮤니티 지원 도구 우선 활용
	모니터링 및 관측 가능성 강화	장애 조기 탐지 실패, SLA 미준수	Prometheus + Grafana, 알림 시스템 (Slack, Opsgenie 등) 통합

최적화하기 위한 고려사항 및 주의할 점

카테고리	고려사항	주의할 점	권장사항
1. 성능 최적화	대용량 데이터 처리 속도 개선	병목 현상, GC 과다, 메모리 부족 등	파티셔닝, 조인 조건 최적화, 인덱싱, 컬럼 기반 포맷 사용 (Parquet/ORC), 캐싱 전략 설계
	병렬 처리 구성 및 DAG 최적화	태스크 과다 생성 또는 비효율적 분산 처리	Spark Executor 병렬도 조절, 병렬 Task 수 제한, Broadcast Join 활용
	포맷 및 I/O 최적화	불필요한 중복 데이터 로드	Parquet, ORC 등 압축 컬럼 포맷 사용, Selective Column Load 적용
2. 비용 최적화	클라우드/인프라 비용 절감	유휴 리소스 미회수로 인한 비용 낭비	자동 스케일링, 예약 인스턴스 활용, 비용 모니터링 지표 기반 리소스 리사이징
	서버리스 vs 클러스터형 비용 비교	트래픽 예측 실패 시 과금 폭증 가능성	스팟 인스턴스, 서버리스 (Fargate/Cloud Run) 기반 자동 처리 구성
3. 데이터 품질 관리	지속적인 데이터 유효성 유지	이상치, 결측치, 포맷 오류 발생 가능성	자동화된 품질 진단 도구 (Great Expectations, Deequ), 정제 워크플로우 구성
	데이터 재현성 및 일관성 확보	이력 불일치, 시간차로 인한 분석 왜곡	데이터 스냅샷 관리, DVC 기반 버전 추적, Feature Store 활용
4. 모델 및 분석 최적화	모델 성능 튜닝 및 정확도 개선	과적합 또는 과소적합, 학습 속도 저하	하이퍼파라미터 자동 탐색 (Optuna, Ray Tune), 모델 앙상블, Early Stopping 적용
	모델 운영 재현성 확보	실험 환경과 서빙 환경 불일치	MLflow, Docker 기반 모델 패키징, 컨테이너 기반 배포 및 검증 테스트 적용
5. 협업 및 운영 체계	데이터 및 모델 버전 관리	스키마 변경/모델 변경으로 인한 시스템 불안정	Git + DVC + DBT 연계, 스키마 체인지 테스트 자동화
	프로세스 표준화 및 협업 효율화	팀 간 의사소통 부재, 파이프라인 중복 개발	공통 템플릿 (예: YAML 파이프라인 정의), 공통 저장소 관리, 표준화된 문서 작성 (Data Contract 등)
6. 보안 및 접근 통제	운영 데이터에 대한 접근 보호	데이터 유출, 무단 접근 위험	Field-level 암호화, Zero Trust 보안 모델, RBAC/ABAC 정책 기반 IAM 설계
	작업 기록 및 모니터링 강화	감사 로그 누락 또는 장애 조기 탐지 실패	로그 중앙 수집 + 이상 탐지 연계, 실시간 알림 및 복구 자동화 (PagerDuty, Slack 연동)

주제와 관련하여 주목할 내용

분류	항목	설명	주요 기술/도구
핵심 영역	데이터 과학	머신러닝, 통계 분석을 기반으로 데이터에서 인사이트를 추출하고 예측 모델을 구축	scikit-learn, TensorFlow, XGBoost
	데이터 엔지니어링	데이터 수집 → 처리 → 저장 → 전달까지 전체 파이프라인 구성 및 운영	Apache Airflow, Kafka, dbt, Spark
	빅데이터	대용량, 고속, 다양성 (3V) 을 갖춘 데이터의 저장 및 처리 체계	Hadoop, Spark, Presto, ClickHouse
	MLOps	모델 학습부터 배포, 모니터링, 롤백까지 전 주기 자동화 및 관리	MLflow, Kubeflow, SageMaker, BentoML
	데이터 거버넌스	데이터 품질 확보, 접근 제어, 표준화 및 법적 준수를 위한 관리 체계	Data Catalog, Great Expectations, Amundsen, Collibra
신기술 동향	제로 ETL (Zero ETL)	소스 시스템에서 목적지로 데이터 이동 없이 직접 분석 가능 (클라우드 통합 서비스로 구현)	AWS Aurora → Redshift, GCP BigQuery Omni 등
	실시간 AI/ML	스트리밍 데이터에 대해 실시간 추론 수행, 즉시 반응이 필요한 시스템에 적용	Kafka + Flink + TensorFlow Serving
	데이터 패브릭	멀티/하이브리드 클라우드 환경에서 통합된 데이터 관리와 접근 제어를 지원하는 가상 데이터 계층 구조	IBM Data Fabric, Talend Data Fabric, Starburst
	데이터 메시 (Data Mesh)	도메인 중심 데이터 분산 소유와 자율 운영을 지원하는 조직적 접근 방식	팀 단위의 데이터 제품 개발 구조, DDD 기반 데이터 관리
표준 및 최적화 전략	OpenLineage	데이터 처리 흐름과 계보 (lineage) 추적을 위한 오픈 표준 프로토콜	Apache Airflow, dbt, Marquez 연동 가능
	Apache Iceberg	대용량 데이터를 위한 테이블 포맷으로, 스키마 진화, ACID 트랜잭션, 시간여행 등을 지원	AWS Athena, Snowflake, Dremio 등과 호환
	OmegaConf	YAML 기반 설정 및 하이퍼파라미터 관리 프레임워크로, 재현성과 구성 관리에 유리	ML 실험 재현, 다양한 config 환경 통합 관리에 활용
	델타 레이크	ACID 트랜잭션, 타임 트래블, 병합 처리 등 지원하는 Lakehouse 스토리지 계층	Databricks Delta Lake, Apache Hudi, Apache Iceberg
	컬럼형 저장소	분석 쿼리 최적화를 위한 컬럼 기반 데이터 포맷, 저장 효율 및 조회 성능 향상	Parquet, ORC, Arrow 등
	인메모리 컴퓨팅	디스크 I/O 를 최소화하고 빠른 처리 성능을 제공하는 메모리 기반 처리 아키텍처	Apache Spark, Redis, Memcached, Dask

핵심 기술 5 가지: 데이터 과학, 엔지니어링, 빅데이터, MLOps, 거버넌스
신기술 4 가지: Zero ETL, Real-time ML, Data Fabric, Data Mesh
최적화/표준 6 가지: OpenLineage, Iceberg, OmegaConf, Delta Lake, Parquet/ORC, Spark/Redis 기반 인메모리

추가 학습 영역

카테고리	설명	세부 학습 주제
1. 고급 분석 및 통계 기법	복잡한 현상 예측, 비즈니스 의사결정 지원	시계열 분석, 베이지안 추론, 인과 추론, 실험 설계 (DOE), 생존 분석
2. 분산 및 병렬 컴퓨팅	대규모 데이터 처리 최적화, 계산 시간 단축	Apache Spark, Dask, Ray, 병렬 알고리즘, 클러스터 스케줄링 (FIFO, FAIR)
3. 실시간 데이터 시스템	실시간 처리 및 이벤트 기반 아키텍처 구축	Kafka, Pulsar, Flink, Kinesis, Stream Processing 패턴, 지연 최소화 설계
4. 클라우드 데이터 인프라	확장 가능한 데이터 파이프라인을 위한 클라우드 환경 설계 및 운영	AWS Glue, Azure Data Factory, GCP Dataflow, IAM, 비용 최적화, 네트워크 설계
5. 머신러닝 운영화 (MLOps)	모델 개발 → 배포 → 모니터링 전체 수명 주기 자동화	MLflow, Kubeflow, SageMaker, Feature Store, 모델 Drift 감지, 재학습 트리거 설정
6. 데이터 거버넌스 및 규제 대응	데이터 품질·보안·정책 준수 관리 체계 구축	Data Catalog, Data Lineage, GDPR/CCPA, Data Quality Rules, 데이터 계약 (Data Contract)
7. 데이터 파이프라인 자동화 및 DevOps	인프라 및 워크플로우 자동화, 효율적인 운영 체계	Airflow, Prefect, Terraform, Kubernetes, CI/CD for ETL/MLOps
8. 데이터 시각화 및 커뮤니케이션	복잡한 분석 결과를 효과적으로 전달하고 인사이트 제공	Tableau, PowerBI, Plotly, Superset, 대시보드 설계 원칙, 스토리텔링 기반 데이터 전달
9. 메타데이터 및 계보 관리	데이터 흐름 및 의미적 문맥 추적으로 재현성과 통제력 향상	OpenLineage, Marquez, Amundsen, 유스케이스 기반 계보 추적 전략
10. 데이터 아키텍처 및 설계 패턴	유연하고 확장 가능한 분석 아키텍처 설계 기반 지식	Data Lakehouse, Data Mesh, Data Fabric, Lambda/Kappa/Delta 아키텍처 비교 분석

용어 정리

카테고리	용어	설명
1. 핵심 개념	Data Science	데이터를 분석하여 인사이트를 도출하는 학문 및 실무 영역
	Data Engineering	데이터 파이프라인, 저장소, 인프라를 설계·구축하는 기술 영역
	Machine Learning	데이터를 학습하여 분류, 예측, 추천 등을 수행하는 알고리즘 기반 기술
	Big Data	대용량, 고속, 다양한 구조의 데이터를 처리하는 기술/환경 (3V: Volume, Velocity, Variety)
2. 데이터 처리 방식	Batch Processing	일정 주기로 대량 데이터를 일괄 처리하는 방식
	Stream Processing	데이터를 실시간으로 처리하는 방식
	Micro-batch	짧은 간격의 작은 배치를 지속적으로 처리하여 준실시간성을 확보하는 방식
3. 데이터 아키텍처	Lambda Architecture	배치 + 스트림 처리를 병행하여 실시간성과 정확성을 모두 확보하는 아키텍처
	Kappa Architecture	전체 데이터를 스트림 처리로만 처리하는 단순화된 구조의 아키텍처
	Data Mesh	각 도메인이 자체적으로 데이터 제품을 책임지는 분산형 아키텍처 패러다임
	Data Lakehouse	데이터 레이크와 데이터 웨어하우스의 장점을 결합한 통합 아키텍처
4. 저장소 및 포맷	Columnar Storage	컬럼 단위로 데이터를 저장하여 분석 쿼리 성능을 높이는 저장 방식
	Delta Lake	ACID 트랜잭션 및 타임 트래블 기능을 제공하는 스토리지 계층
	Apache Iceberg	대용량 테이블을 위한 개방형 포맷, 스키마 진화 및 시간 기반 쿼리 지원
	ACID 트랜잭션	데이터 무결성을 보장하는 데이터베이스 트랜잭션 속성 (Atomicity, Consistency, Isolation, Durability)
5. 워크플로우/운영	DAG (Directed Acyclic Graph)	순환이 없는 방향성 그래프로 작업 흐름과 의존 관계를 표현하는 구조
	Orchestration	작업 실행 순서와 의존성 관리를 자동화하는 시스템 (예: Airflow)
	Containerization	실행 환경을 컨테이너에 패키징하여 어디서나 일관된 배포를 가능하게 하는 기술
	Infrastructure as Code (IaC)	인프라 구성을 코드로 정의하고 형상 관리하는 방식 (예: Terraform)
6. 머신러닝 운영 (MLOps)	MLOps	머신러닝 모델 개발부터 배포, 모니터링까지 자동화하는 접근 방식
	MLflow	실험 추적, 모델 배포, 서빙, 모니터링을 통합한 오픈소스 플랫폼
	Feature Store	모델 학습과 예측에서 공통 피처를 저장하고 재사용하는 저장소 시스템
	Data Drift	운영 중인 입력 데이터의 분포가 훈련 데이터와 달라지는 현상
	Model Drift	시간이 지나며 모델 성능이 감소하는 현상
7. 품질/거버넌스/보안	Data Governance	품질, 보안, 표준화, 규제 준수를 포함한 데이터 전반의 관리 체계
	Data Lineage	데이터의 출처, 흐름, 변환 이력을 추적하여 신뢰성과 투명성을 확보하는 방법
	Data Profiling	데이터의 특성을 자동 분석하여 품질 문제를 탐지하는 프로세스
	Schema Validation	데이터가 정의된 구조를 정확히 따르는지 확인하는 검증 절차
	Zero Trust	네트워크 내외부를 구분하지 않고 모든 접근을 검증하는 보안 모델
	Data Masking	민감 정보를 난독화하거나 대체하여 보안성을 확보하는 기법
	RBAC (Role-Based Access Control)	역할 기반으로 시스템/데이터 접근 권한을 제어하는 방식
8. 버전/설정 관리	DVC (Data Version Control)	Git 과 연동된 데이터 및 모델 버전 관리 도구
	OmegaConf	ML 실험 및 서비스 환경 설정을 구조화된 방식으로 관리하는 Python 기반 설정 프레임워크

Data Science and Engineering Overview