본문 바로가기
728x90

DAG2

[BigData] Apache Airflow 설치 및 실습하기 series (3) Airflow로 spark-submit(pyspark)하기with BashOperator 이번 포스트에는 spark-submit 실습한 파일을 가지고 설치한 airflow로 spark-submit해보도록 하겠습니다. + 헷갈리는 개념인 start_date, execution_date, schedule_interval, data interval에 대한 조작과 이해를 돕는 실습을 하겠습니다. spark-submit을 통해 만든 .py file과 실습내용은 아래의 링크에 있습니다. https://spidyweb.tistory.com/303 [Spark] spark standalone 모드로 pyspark 실습(.py spark submit)+ui확인하기 이번 포스트에서는 spark standalone 모드 즉, yarn을 이용하지 않고 local(단일 노드로) pyspark을 제출하는 .py 파일.. 2021. 11. 19.
[BigData] Apache Airflow 설치 및 실습 하기 series (1) Airflow란? DAG란? 안녕하세요 이번 포스트에는 Airflow의 개념에 대해서 알아보고 어떤 역할을 하는지, 그리고 핵심인 DAG파일에 대해서 알아보겠습니다. 1. Apahce Airflow란? 에어비앤비에서 python기반으로 개발한 워크플로우 스케줄링, 모니터링 플랫폼 workflow management tool oozie와 luigi와 같이 데이터파이프라인을 구성할 때 사용된다. 2. airflow 의 특징 및 장점 airflow 파이프라인(동작순서, 방식)을 파이썬 코드를 이용하여 DAG를 구성하기 때문에 동적인 구성이 가능 oozie와 같은 ui로 구성하는 것에 비해 비교적 큰 파이프라인을 코드로써 편하게 구성할 수 있다. airflow webserver가 있어 웹 UI를 표현하고, workflow 상태를 표시,실행.. 2021. 10. 17.
728x90