728x90 기술 면접2 [BigData] 파일 포멧과 압축 포멧 선택 기준 정리 (parquet, Avro, gzip,snappy,ZSTD) 데이터 엔지니어 기술 면접에서 깊게는 질문하지 않았지만, 심심찮게 나오는 "정보계 운영 및 데이터 파이프라인을 구축하시면서 어떤 파일 포멧을 사용하셨고, 어떤 압축포멧을 사용하셨나요?" 에 대한 답변을 정리할겸 포멧에 대한 장단점과 사용 이유에 대해서 정리해보려고 합니다. 이전에 비교 정리해둔 파일 포멧에 대한 글은 아래의 링크를 참조해주세요.https://spidyweb.tistory.com/567https://spidyweb.tistory.com/4611. Parquet와 Avro 어떨 때, 왜 사용하나요?보통 Parquet는 Spark와 Avro는 Kafka와 같은 Streaming platform에 잘 어울린다고 알려져 있습니다.그 이유를 정리해보자면 각 파일의 특징과 관련이 있습니다.1) Par.. 2025. 5. 5. [Spark] AWS EMR vs Glue ETL 비교 정리하기 (성능, 비용, 특징, 실행 방법,...) spark를 써봤다고 면접에서 어필을 할 때 나오는 단골 질문 중 하나인 어떤 제품을 통해 Spark를 실행 시켰으며 어떤 장점 때문에(왜) 해당 제품을 선택했나요? 다른 제품을 고려하지 않은 이유는? 에 대해 정리해보겠습니다.(사실 제 경우에는 Glue ETL을 많이 사용하지 않았기에 정확하게 비교해 볼만한 기회가 없었습니다.)1. AWS EMR이란EMR은 Spark 를 포함한 Hadoop Ecosystem이 탑재된 하둡 클러스터입니다. 따라서 Hive Job 및 다양한 작업을 실행할 수 있습니다.EMR(Elastic Map Reduce)는 크게 3가지로 나뉩니다.EMR on EC2EMR ServerlessEMR on EKS이번 포스트에는 EMR on EC2와 EMR Serverless에 대해 간단하게.. 2025. 5. 4. 이전 1 다음 728x90