Kafka 토픽 생성, 콘솔 프로듀서, 콘솔 컨슈머, 컨슈머그룹 명령어
·
DATA Engineering/Kafka
kafka-topics.sh #만들겠다. 브로커서버는 kafka1이고. 복제본갯수는 3이며. 파티션갯수는 1개다. 토픽이름은 test-topic02다 --create --bootstrap-server kafka1:9092 --replication-factor 3 --partitions 1 --topic test-topic02 #지우겠다. 브로커서버는 kafka1이고. 토픽이름은 test-topic02다 --delete --bootstrap-server kafka1:9092 --topic test-topic02 #확인하겠다. 브로커서버는 kafka1이고. 토픽이름은 test-topic02다 --bootstrap-server kafka1:9092 --topic test-topic02 --describe #만..
Kafka에서 서버연결해서 메세지보내기
·
DATA Engineering/Kafka
이전 게시글 ‘AWS EC2에 Kafka 설치하기’의 다음 내용입니다. 서버1에서 서버2의 토픽을 만듭니다 /usr/local/kafka/bin/kafka-topics.sh \ --create \ --bootstrap-server kafka2:2181 \ --topic jjongguet2 서버2에서 console-consumer를 열어서 토픽을 받아들일 준비를 합니다 /usr/local/kafka/bin/kafka-console-consumer.sh \ --bootstrap-server kafka2:9092 \ --topic jjongguet2 이전에 존재하는 메세지가 존재한다면 --from-beginning 옵션을 써서 이전 데이터를 먼저 가져와도 무방합니다 서버1에서 console-producer를 ..
AWS EC2에 Kafka 설치 및 구축하기
·
DATA Engineering/Kafka
서버 구성 Amazon Linux 2 : Kernel 54.10, 64비트 인스턴스 : t2.medium 키페어 이름 : keypair (pem형식) Storage 1 x 50GB(GiB) 보안그룹이름 : peter-sg-kafka 유형 프로토콜 포트범위 소스 모든트래픽 모두 0-65535(전체) 사용자지정(Custom) 172.31.0.0/16 모든 TCP TCP 0-65535(전체) 내 IP(My IP) Server public private 연결 kafka1 3.83.193.229 172.31.84.60 ssh -i keypair.pem ec2-user@{public} kafka2 54.237.164.107 172.31.80.29 키페어 sudo chmod 600 keypair.pem 주의)루트유저..
맥에서 루트(Root)권한 활성화/비활성화
·
생산성, 개발장비
맥북에서 시스템환경설정 → 사용자 및 그룹 에 가서 확인해보면 내가 관리자니까, 당연히 root권한이 있을줄 알았는데 아니다. 따로 지정해주어야한다. #터미널에서 dsenableroot 반대로, 루트권한을 해제하는 경우에는 #터미널에서 dsenableroot -d -u {유저이름}
Scalog 설명. 간단한 요약.
·
DATA Engineering/Kafka
주의 이 리뷰는 매우 낮은 수준에서 진행한 리뷰입니다. 가볍게 읽기를 권장하며, 관심있으신분들은 원본 자료를 찾아보시기를 권장합니다 *Scalog 논문 : https://www.usenix.org/conference/nsdi20/presentation/ding *발표영상 링크 : https://www.youtube.com/watch?v=pfpjKNZA-d4 NSDI '20 - Scalog: Seamless Reconfiguration and Total Order in a Scalable Shared Log Key point total order shared log → 분산환경에서도 로그가 안꼬여야하고 unusally scalable → 확장 가능성을 항상 염두해둬야하고 only totally shared..
DASK Scheduler설명. Client
·
DATA Engineering/Dask
DASK SCHEDULER https://docs.dask.org/en/stable/scheduling.html Scheduler는 2가지로 구분된다 Single Machine용 스케쥴러 Basic futures on local thread or process default로 설정되어있음 Distributed용 스케쥴러 more futures on local or distributed cluster DASK의 Distributed Scheduler https://distributed.dask.org/en/stable/ Dask.Distributed 는 스케쥴러를 관리하는 일종의 모듈인데 다음과 같은 특징을 가진다 적은 지연성 : 오버헤드가 적다 데이터 공유 : dask-worker들이 데이터를 공유하고 ..
DASK DELAYED. Compute. Futures
·
DATA Engineering/Dask
DASK DELAYED dask.delayed 인터페이스로 테스크를 병렬화시켜서 할당하는게 가능함 말 그대로 Task를 DELAYED(지연) 시키는 기능이 가능하다 이 기능을 써서 내가 원하는 시점에 특정 TASK를 사용할수 있게 한다 e.g. def inc(x): return x + 1 def double(x): return x * 2 def add(x, y): return x + y data = [1, 2, 3, 4, 5] #Sequential output = [] for x in data: a = inc(x) b = double(x) c = add(a, b) output.append(c) total = sum(output) #Parallel import dask output = [] for x in..
DASK DataFrame 과 꿀팁. Shuffling전략
·
DATA Engineering/Dask
DASK 란 무엇인가 두가지 목적에 의해 만들어졌다 연산작업 최적화를 위한 동적 작업 스케쥴링기능 분산환경으로 올려서 처리하는 병렬화 기능 DASK 의 구성 Collections → Task Graph → Schedulers 의 세 부분으로 구성되어있다 DASK DataFrame 특징 Dask dataframe은 pandas dataframes을 기반으로 구현이 되었음 따라서 Dask dataframe 작업은, Pandas dataframe 작업을 기반으로 작동한다고 생각하면 됨 dask Dataframe은 pandas Dataframe API를 비슷하게 사용할수 있음 현재 사용가능한 환경을 넘어서, 더 많은 리소스를 사용할수 있는 환경에서 연산이 가능하게 됨 Dask Dataframe는 row-wise..
Numpy Array Memory구조 확인하기
·
Dev
Python List vs Numpy Array 메모리 구조 Python List Numpy Array Python List는 List 내부에 공간이 먼저 할당되고, 공간이 각각의 Value값이 있는 Integer Objects를 바라보고 있다는 것이다 이에 대비한 Numpy Array는 Array Object 내부에 할당된 공간이, 실제 Integer Object가 있는 장소 라는것이다 Numpy array Memory Numpy array = rawdata(refer to databuffer) + rawdata에 대한 정보 연속형 고정블록 메모리를 가지고있다(C-order or Fortran-order) rawdata Numpy array에서 가지는 rawdata는 다음과 같은 정보를 가지고 있다 데..
MapReduce 튜닝하기
·
DATA Engineering/Hadoop
기존 MapReduce 아키텍쳐 : INPUT → Mapper → Shuffle&Sort → Reducers → OUTPUT Yarn (MapReduce2)을 사용 튜닝 MapReduce INPUT → Mapper → Combiner → Partitioner → Shuffle&Sort → Reducer → OUTPUT Shuffle & Sort 에서 트래픽이 너무 많이 발생하는데, 이 부분을 줄이는것을 목표로 튜닝을 진행하려고 함 Mapper, Partitioner에서 나오는 Key를 줄여서, 네트워크 간 트래픽을 최소화 시켜야 한다 튜닝 방법 메모리 튜닝-Xms1024M -Xmx2048M : Java 힙 메모리 조절하기. Xms는 최소, Xmx는 최대 힙메모리 mapred.child.java.opts ..
jjongguet
뒤죽박죽 데이터엔지니어링