[Data Pipeline] 1. batch job data pipeline의 구성과 장,단점과 정리 (비용, 고려 사항, 성능)
이번 포스트에는 batch job에 사용될 수 있는 다양한 데이터파이프라인 조합과 그에 따른 장단점과 고려 사항을 정리해보겠습니다. 아래의 항목들이 포함한 특징을 같이 적어보겠습니다.상황별 배치 파이프라인 구성장단점조직의 규모 및 구성비용확장성백업, 모니터1. 각 데이터 파이프라인의 구성흔히 말하는 E(Extract), T(Transform), L(Load) 하는 소스며, 프레임워크며, 저장 장소가 정말 다양하고 비용과 성능 그리고 필요한 비지니스 요건에 따라 달라집니다. 우선 그 종류에 대해서 파악해보고 장단점을 하나씩 확인해보겠습니다.1) 다양한 소스의 구성소스특징 / 설명예시RDBMS구조화된 정형 데이터MySQL, PostgreSQL, Oracle, MSSQL로그 데이터 반정형/비정형 이벤트 데이터..
2025. 4. 13.
[Spark] YARN vs k8s vs mesos 스파크 리소스 및 작업 스케줄링
spark에서 사용할 수 있는, 정확히는 hadoop의 YARN대신에 사용 할 수 있는 리소스와 작업 스케줄링을 담당하는 컴포넌트에 대해서 비교 해보겠습니다. 1. 아키텍처 및 설계 목적항목YARNKubernetesMesos목적Hadoop 에코시스템 내에서 자원 관리를 위한 분산 리소스 관리컨테이너화된 애플리케이션의 배포, 확장 및 관리를 위한 오케스트레이션다양한 워크로드 (컨테이너, Spark, Hadoop 등)를 통합 관리하는 범용 리소스 관리주요 구성 요소ResourceManager, NodeManager, ApplicationMasterMaster(Node), Worker(Node), kubelet, kube-proxy, podMaster, Agent(Slave), Framework (Marath..
2025. 1. 7.