[BigData] Parquet vs ORC vs Avro 빅데이터 파일 포멧 비교 정리
빅데이터에 사용이 많이 되는 파일 형식에 대해서 비교하고 정리해보겠습니다.특징ParquetAvroORC저장 방식컬럼 기반행 기반컬럼 기반압축률높음중간매우 높음주 용도배치, 분석 처리스트리밍, 실시간 처리배치, 데이터 웨어하우스 처리성능읽기 성능 우수(columnar)빠른 쓰기, schema evolution 지원읽기 성능 우수배치 처리적합부적합(행 기반 저장으로 인한 성능 저하)매우 적합스트리밍 처리덜 최적화최적화(schema evolution)덜 최적화사용되는 기술Spark, Hive, Impala, PrestoKafka, Spark, Flink, HadoopHive, Spark, Presto, Impala1. ParquetParquet 구조+----------------------+| Fil..
2025. 1. 8.
[Spark] YARN vs k8s vs mesos 스파크 리소스 및 작업 스케줄링
spark에서 사용할 수 있는, 정확히는 hadoop의 YARN대신에 사용 할 수 있는 리소스와 작업 스케줄링을 담당하는 컴포넌트에 대해서 비교 해보겠습니다. 1. 아키텍처 및 설계 목적항목YARNKubernetesMesos목적Hadoop 에코시스템 내에서 자원 관리를 위한 분산 리소스 관리컨테이너화된 애플리케이션의 배포, 확장 및 관리를 위한 오케스트레이션다양한 워크로드 (컨테이너, Spark, Hadoop 등)를 통합 관리하는 범용 리소스 관리주요 구성 요소ResourceManager, NodeManager, ApplicationMasterMaster(Node), Worker(Node), kubelet, kube-proxy, podMaster, Agent(Slave), Framework (Marath..
2025. 1. 7.