728x90 executor6 [Airflow] Airflow 개념과 전체적인 구조 정리 이번 포스트에는 Airflow의 구조에 대해서 간단하게 정리 해보겠습니다.1. LocalExecutor를 사용하는 Single Node ArchitectureSingle Node Architecutre에는 크게 4가지 모듈이 있습니다.WebServer:Airflow의 웹서버는 사용자가 DAG의 상태를 확인하거나 로그를 조회할 수 있도록 웹 인터페이스를 제공기본적으로 Flask로 구축되어 있음Scheduler: Airflow 스케줄러는 정의된 DAG(Directed Acyclic Graph)의 Task를 스케줄에 따라 실행여러 DAG에서 병렬 작업을 관리하며, Executor와 연동해 작업을 처리Metastore: DAG, USER, 권한, 실행 이력과 같은 테이블을 저장하고 있으며, PostgreSQL,.. 2025. 1. 17. [Spark] Spark 자주 쓰이는 Config 정리 driver,executor memory, dynamic allocation properties 분류 설명 예시 spark.master Application Properties 클러스터 매니저(리소스 매니저 설정) local[*], yarn, k8s://HOST:PORT, mesos: //HOST:PORT spark.driver.extraClassPath Runtime Environment 드라이버의 클래스 경로에 추가할 추가 클래스 경로 항목 /usr/lib/hadoop-lzo/lib/*:/usr/lib/hadoop/hadoop-aws.jar:/usr/share/aws/aws-java-sdk/*$spark.driver.extraLibraryPath /usr/lib/hadoop/lib/native:/usr/lib/hadoop-lzo/lib/native:/docker/usr/lib.. 2021. 12. 28. [Spark Tuning] (spark on YARN)yarn container, spark core, executor 개수 Memory 용량 계산법 및 최적화 이번 포스트에는 Spark의 core, executor, memory 계산법 대해서 알아보겠습니다. Core ? vCore? 헷갈릴 개념 요즘은 하이퍼스레딩이라 하여 1코어에 2개의 스레드를 지원하는 instance들이 많습니다. core든 vCore든 가상화의 차이만 있을 뿐 같은 코어입니다. 여기서 중요한건 코어당 스레드가 1이냐 2이냐 차이인데, 아래의 instance는 8코어이지만 vCPU(vCore,가상 논리 프로세서=스레드)는 16입니다. *spark에 있어서 불리는 코어는 하이퍼스레딩은 지원하지 않으면 코어수 그대로겠지만, 지원한다면 vCPU인 가상 논리 프로세서의 수를 의미합니다. vCPU: 코어 x 코어당 스레드, 논리프로세서라고도 불리며, 하나의 스레드 코어: 물리적인 CPU당 들어 있.. 2021. 12. 20. [Spark] spark on yarn cluster에 pyspark job submit(스파크 클러스터에 잡 던지고 UI 확인하기) 이번 포스트에는 spark를 yarn을 이용하여 cluster mode로 pyspark job을 제출하고, cluster로 잘 돌았는지 확인해보겠습니다. hadoop cluster가 구성 안되신 분들은 아래의 링크를 참조해주세요. 2021.08.08 - [BigData] - [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 이번 포스트에는 하둡 fully-distributed mode 구축을 해보도록 하겠습니다. 하둡 구성 스펙 호스트OS - windows10 home 게스트OS들 - centOS7 Hadoop -.. 2021. 11. 18. [BigData] Apache Airflow 설치 및 실습 하기 series (1) Airflow란? DAG란? 안녕하세요 이번 포스트에는 Airflow의 개념에 대해서 알아보고 어떤 역할을 하는지, 그리고 핵심인 DAG파일에 대해서 알아보겠습니다. 1. Apahce Airflow란? 에어비앤비에서 python기반으로 개발한 워크플로우 스케줄링, 모니터링 플랫폼 workflow management tool oozie와 luigi와 같이 데이터파이프라인을 구성할 때 사용된다. 2. airflow 의 특징 및 장점 airflow 파이프라인(동작순서, 방식)을 파이썬 코드를 이용하여 DAG를 구성하기 때문에 동적인 구성이 가능 oozie와 같은 ui로 구성하는 것에 비해 비교적 큰 파이프라인을 코드로써 편하게 구성할 수 있다. airflow webserver가 있어 웹 UI를 표현하고, workflow 상태를 표시,실행.. 2021. 10. 17. [BigData] 헷갈릴 만한 용어 정리 HDFS 노드, EMR cluster 노드, Spark Application (process) 정리 1. HDFS구분name nodedata nodejournal node설명파일 시스템의 메타데이터(파일명, 디렉터리 구조, 블록 위치 등)를 관리실제 데이터는 보관하지 않고, 어떤 데이터 블록이 어느 DataNode에 저장되어 있는지 추적실제 데이터를 저장하고 관리NameNode의 지시에 따라 데이터를 저장하거나 삭제하고, 주기적으로 상태를 NameNode에 보고고가용성(HA) 환경에서 NameNode 간 메타데이터 변경 사항을 기록Active NameNode가 장애 발생 시 Standby NameNode가 JournalNode의 로그를 통해 복구특징NameNode의 부하를 줄이고 장애 발생 시 복구 시간을 단축NameNode의 백업으로 작동하지만, NameNode와 1:1로 동작하지 않음다수의 Data.. 2021. 8. 19. 이전 1 다음 728x90