데이터감시자. 수집기들이 일을 잘하고있나?
·
프로젝트의 고민들
흔히 말하는 데이터파이프라인은 4단계로 구성되어있다. 수집 - 정제 - 적재 - 분석 단계다. 이에 대해서 간략히 설명해보면 수집 : 실질적으로 데이터를 가져오는 부분. 어떤 데이터를 사용할지에 대해서 미리 논의가 필요하다. 정제 : 로우데이터를 그대로 가져와도 사용하기 불편하기때문에, 이를 비즈니스에서 사용하기 편하게 가공하는것이다. 적재 : 데이터 마트, 혹은 데이터테이블에 데이터를 적재하는과정이다. 분석 : 데이터사이언스분들이 해야할 일이다. 데이터를 기반으로 인사이트를 도출해낸다. 오늘 이야기할 내용은 ‘수집’ 부분에 대한 내용이다. 왜 문제가 되는가? 를 이해하려면 수집기가 작동하는 방식을 이해해야한다. 여기서는 Filebeat를 예로 들었다. Filebeat에서의 순서는 구성파일을 읽고(일반적..
어쩌다 홈 PC 클러스터링
·
프로젝트의 고민들
선요약 나는 이 장비들로 쿠버네티스 마스터 - 워커로 구성시켜서 job을 돌릴예정이다 사건의 전말 사실 나는 돈관리를 못한다. 귀가 얇은편이다. 특히, 장비를 구매한다거나 책을 살때는 아낌없이 투자하는 성격이다. 그러던 중, 톡방에서 미니PC 에 대한 이야기가 나왔다. 사실 이 카톡을 보낼때까지만 해도, 미니PC를 구매할 생각이없었다. 근데, 내가 구매한 이유는 다음과같다. 하필 그 날이 월급날이였다. ‘집에서 ubuntu 가지고 놀면 재밌겠다~’ 라는 마음도 있었고, 월급도 들어왔겠다 쿨하게 결제해버렸다. 미니PC 내가 구매한 PC는 ning-mei 의 CR160-J4561, CR160-J4582 라는 모델이다. 기본OS로는 Window가 설치되어있지만, Ubuntu로 바꿔버릴 생각이였다 포트는 총 4..
데이터 인프라는 K8s에 올라가있는게 좋을까 (진짜모름)
·
프로젝트의 고민들
회사에서 쿠버네티스를 만지면서 든 생각이다. 데이터 인프라를 K8s 에 올리는게 과연 좋을까? 아무것도 모르는 사람이 데이터 파이프라인을 구축한다면? 일반적으로 ELK스택을 구축하는 토이프로젝트를 한다면 어떻게 환경을 구성하는게 나을까? AWS에서 EC2서버를 4개 띄운다음에, 인바운드-아웃바운드로 포트 뚫어주고, 인스턴스끼리 서로 통신할수 있도록 환경을 만들것같다. 그리고 인스턴스에 Beats(데이터 소스역할), Logstash, ES, Kibana 를 설치하고 연결한 데이터파이프라인을 만들것같다. 일반적으로 프로그램은 두가지 방식으로 설치한다 위 상황에서 일반적으로 프로그램을 설치하는 방법은 2가지의 방법으로 나뉘는거같다. 첫번째 방법은 apt-get 같은 패키지명령도구를 사용하는것이다 두번째 방법은..
jjongguet