본문 바로가기
728x90

File Format2

[BigData] 파일 포멧과 압축 포멧 선택 기준 정리 (parquet, Avro, gzip,snappy,ZSTD) 데이터 엔지니어 기술 면접에서 깊게는 질문하지 않았지만, 심심찮게 나오는 "정보계 운영 및 데이터 파이프라인을 구축하시면서 어떤 파일 포멧을 사용하셨고, 어떤 압축포멧을 사용하셨나요?" 에 대한 답변을 정리할겸 포멧에 대한 장단점과 사용 이유에 대해서 정리해보려고 합니다. 이전에 비교 정리해둔 파일 포멧에 대한 글은 아래의 링크를 참조해주세요.https://spidyweb.tistory.com/567https://spidyweb.tistory.com/4611. Parquet와 Avro 어떨 때, 왜 사용하나요?보통 Parquet는 Spark와 Avro는 Kafka와 같은 Streaming platform에 잘 어울린다고 알려져 있습니다.그 이유를 정리해보자면 각 파일의 특징과 관련이 있습니다.1) Par.. 2025. 5. 5.
[BigData] Parquet vs ORC vs Avro 빅데이터 파일 포멧 비교 정리 빅데이터에 사용이 많이 되는 파일 형식에 대해서 비교하고 정리해보겠습니다.특징ParquetAvroORC저장 방식컬럼 기반행 기반컬럼 기반압축률높음중간매우 높음주 용도배치, 분석 처리스트리밍, 실시간 처리배치, 데이터 웨어하우스 처리성능읽기 성능 우수(columnar)빠른 쓰기, schema evolution 지원읽기 성능 우수배치 처리적합부적합(행 기반 저장으로 인한 성능 저하)매우 적합스트리밍 처리덜 최적화최적화(schema evolution)덜 최적화사용되는 기술Spark, Hive, Impala, PrestoKafka, Spark, Flink, HadoopHive, Spark, Presto, Impala1. ParquetParquet 구조+----------------------+| Fil.. 2025. 1. 8.
728x90