[BigData] Parquet vs ORC vs Avro 빅데이터 파일 포멧 비교 정리
빅데이터에 사용이 많이 되는 파일 형식에 대해서 비교하고 정리해보겠습니다.특징ParquetAvroORC저장 방식컬럼 기반행 기반컬럼 기반압축률높음중간매우 높음주 용도배치, 분석 처리스트리밍, 실시간 처리배치, 데이터 웨어하우스 처리성능읽기 성능 우수(columnar)빠른 쓰기, schema evolution 지원읽기 성능 우수배치 처리적합부적합(행 기반 저장으로 인한 성능 저하)매우 적합스트리밍 처리덜 최적화최적화(schema evolution)덜 최적화사용되는 기술Spark, Hive, Impala, PrestoKafka, Spark, Flink, HadoopHive, Spark, Presto, Impala1. ParquetParquet 구조+----------------------+| Fil..
2025. 1. 8.
[Spark] YARN vs k8s vs mesos 스파크 리소스 및 작업 스케줄링
spark에서 사용할 수 있는, 정확히는 hadoop의 YARN대신에 사용 할 수 있는 리소스와 작업 스케줄링을 담당하는 컴포넌트에 대해서 비교 해보겠습니다. 1. 아키텍처 및 설계 목적항목YARNKubernetesMesos목적Hadoop 에코시스템 내에서 자원 관리를 위한 분산 리소스 관리컨테이너화된 애플리케이션의 배포, 확장 및 관리를 위한 오케스트레이션다양한 워크로드 (컨테이너, Spark, Hadoop 등)를 통합 관리하는 범용 리소스 관리주요 구성 요소ResourceManager, NodeManager, ApplicationMasterMaster(Node), Worker(Node), kubelet, kube-proxy, podMaster, Agent(Slave), Framework (Marath..
2025. 1. 7.
퇴사, 가치관 그리고 회고록
정말 오랜만에 블로그에 글을 쓰게 되는데, 드는 생각과 근황, 회고에 대해서 적어보려고 합니다.[퇴사]2023년 5월에 입사하여 2024년 12월 부로 퇴사를 하게 되었는데, 사유는 권고사직입니다.회사의 상황이 어려워지는 것은 알았지만, 인원감축을 해야 할 정도로 어려울 것이라는 생각 해본 적 없었고, 뉴스에서만 보던 일이 저한테도 일어나게 될 줄 몰랐습니다.처음에는 갑작스러운 소식에 많이 당황도 했고, 이유가 뭐 일까도 생각해 봤는데, 이미 제가 손을 쓸 수 없는 상황이기에 누군가를 원망한다거나, 지난 일에 신경 쓰기보다는 단념을 하게 되고, 다음 스텝을 밟기 위해 준비를 하며 보냈습니다.원래의 계획은 경력 5년은 최소 채우고 난 이후에 도전해보고 싶었던 세계여행이나 영어 회화, 호주 워홀도 실행해보려..
2024. 12. 14.