Dask

Dask Dask는 파이썬을 위한 유연한 병렬 컴퓨팅 라이브러리. 대규모 데이터 처리와 복잡한 계산을 효율적으로 수행할 수 있도록 설계되었다. 주요 특징 대규모 데이터셋 처리: Dask는 메모리에 들어가지 않는 매우 큰 데이터셋을 처리할 수 있다. 병렬 및 분산 컴퓨팅: 복잡한 병렬 알고리즘을 쉽게 작성할 수 있으며, 여러 머신에 걸쳐 작업을 분산시킬 수 있다. 지연 실행(lazy execution): 작업을 즉시 실행하지 않고, 계산 그래프를 구성하여 최적화하고 효율적으로 실행한다. NumPy, Pandas, Scikit-Learn과의 호환성: 이러한 라이브러리들의 대규모 데이터셋에 대한 확장된 버전을 제공한다. 동적 작업 스케줄링: 계산 작업을 동적으로 스케줄링하여 리소스 사용을 최적화한다. 장점 pandas와 유사한 API로 사용이 쉬움 대용량 데이터 처리에 효율적 병렬 처리를 통한 빠른 연산 속도 단점 복잡한 연산 시.compute() 함수 사용으로 인한 시간 소요 일부 고급 기능에서는 제한적일 수 있음 Dask의 구성 Dask는 크게 세 부분으로 구성되어 있다: ...

January 17, 2025 · 2 min · Me