[BigData] Parquet vs ORC vs Avro 빅데이터 파일 포멧 비교 정리
빅데이터에 사용이 많이 되는 파일 형식에 대해서 비교하고 정리해보겠습니다.특징ParquetAvroORC저장 방식컬럼 기반행 기반컬럼 기반압축률높음중간매우 높음주 용도배치, 분석 처리스트리밍, 실시간 처리배치, 데이터 웨어하우스 처리성능읽기 성능 우수(columnar)빠른 쓰기, schema evolution 지원읽기 성능 우수배치 처리적합부적합(행 기반 저장으로 인한 성능 저하)매우 적합스트리밍 처리덜 최적화최적화(schema evolution)덜 최적화사용되는 기술Spark, Hive, Impala, PrestoKafka, Spark, Flink, HadoopHive, Spark, Presto, Impala1. ParquetParquet 구조+----------------------+| Fil..
2025. 1. 8.