DASK DataFrame 과 꿀팁. Shuffling전략
·
DATA Engineering/Dask
DASK 란 무엇인가 두가지 목적에 의해 만들어졌다 연산작업 최적화를 위한 동적 작업 스케쥴링기능 분산환경으로 올려서 처리하는 병렬화 기능 DASK 의 구성 Collections → Task Graph → Schedulers 의 세 부분으로 구성되어있다 DASK DataFrame 특징 Dask dataframe은 pandas dataframes을 기반으로 구현이 되었음 따라서 Dask dataframe 작업은, Pandas dataframe 작업을 기반으로 작동한다고 생각하면 됨 dask Dataframe은 pandas Dataframe API를 비슷하게 사용할수 있음 현재 사용가능한 환경을 넘어서, 더 많은 리소스를 사용할수 있는 환경에서 연산이 가능하게 됨 Dask Dataframe는 row-wise..