Parquet는 왜 쓸까?
·
Dev
한줄요약 Data를 저장할때 ‘행기반’ 과 ‘열기반’ 으로 나누어져 저장된다 열기반(Column-Based)의 장점이 필요할때 사용한다 정형데이터와 비정형데이터 일반적으로 소규모 데이터베이스 상황에서 데이터를 저장해야할때 정형데이터 - RDB 비정형데이터 - NoSQL 이런식으로 구분하여 저장하는것이 일반적이었다 만약 대용량 데이터를 저장해야한다면? 일반적으로 데이터레이크를 구축할때, 오브젝트스토리지를 사용하는것이 일반적인데 그중 하나의 클라우드 서비스로는 AWS S3 가 있다 대용량 데이터를 저장해야할 정도면, 당연히 하둡생태계를 고려할것이고 이때 고려할만한 타입이 Parquet(파케이) 타입이다 Parquet(파케이) 주된 특징으로는 S3 에 주로 사용하는 데이터 포맷이고 빠르게 읽기가 가능하고 압축..