
데이터감시자. 수집기들이 일을 잘하고있나?
·
프로젝트의 고민들
흔히 말하는 데이터파이프라인은 4단계로 구성되어있다. 수집 - 정제 - 적재 - 분석 단계다. 이에 대해서 간략히 설명해보면 수집 : 실질적으로 데이터를 가져오는 부분. 어떤 데이터를 사용할지에 대해서 미리 논의가 필요하다. 정제 : 로우데이터를 그대로 가져와도 사용하기 불편하기때문에, 이를 비즈니스에서 사용하기 편하게 가공하는것이다. 적재 : 데이터 마트, 혹은 데이터테이블에 데이터를 적재하는과정이다. 분석 : 데이터사이언스분들이 해야할 일이다. 데이터를 기반으로 인사이트를 도출해낸다. 오늘 이야기할 내용은 ‘수집’ 부분에 대한 내용이다. 왜 문제가 되는가? 를 이해하려면 수집기가 작동하는 방식을 이해해야한다. 여기서는 Filebeat를 예로 들었다. Filebeat에서의 순서는 구성파일을 읽고(일반적..