DASK Scheduler설명. Client
·
DATA Engineering/Dask
DASK SCHEDULER https://docs.dask.org/en/stable/scheduling.html Scheduler는 2가지로 구분된다 Single Machine용 스케쥴러 Basic futures on local thread or process default로 설정되어있음 Distributed용 스케쥴러 more futures on local or distributed cluster DASK의 Distributed Scheduler https://distributed.dask.org/en/stable/ Dask.Distributed 는 스케쥴러를 관리하는 일종의 모듈인데 다음과 같은 특징을 가진다 적은 지연성 : 오버헤드가 적다 데이터 공유 : dask-worker들이 데이터를 공유하고 ..
DASK DELAYED. Compute. Futures
·
DATA Engineering/Dask
DASK DELAYED dask.delayed 인터페이스로 테스크를 병렬화시켜서 할당하는게 가능함 말 그대로 Task를 DELAYED(지연) 시키는 기능이 가능하다 이 기능을 써서 내가 원하는 시점에 특정 TASK를 사용할수 있게 한다 e.g. def inc(x): return x + 1 def double(x): return x * 2 def add(x, y): return x + y data = [1, 2, 3, 4, 5] #Sequential output = [] for x in data: a = inc(x) b = double(x) c = add(a, b) output.append(c) total = sum(output) #Parallel import dask output = [] for x in..
DASK DataFrame 과 꿀팁. Shuffling전략
·
DATA Engineering/Dask
DASK 란 무엇인가 두가지 목적에 의해 만들어졌다 연산작업 최적화를 위한 동적 작업 스케쥴링기능 분산환경으로 올려서 처리하는 병렬화 기능 DASK 의 구성 Collections → Task Graph → Schedulers 의 세 부분으로 구성되어있다 DASK DataFrame 특징 Dask dataframe은 pandas dataframes을 기반으로 구현이 되었음 따라서 Dask dataframe 작업은, Pandas dataframe 작업을 기반으로 작동한다고 생각하면 됨 dask Dataframe은 pandas Dataframe API를 비슷하게 사용할수 있음 현재 사용가능한 환경을 넘어서, 더 많은 리소스를 사용할수 있는 환경에서 연산이 가능하게 됨 Dask Dataframe는 row-wise..
jjongguet
'DATA Engineering/Dask' 카테고리의 글 목록