728x90 spark UI3 [Spark] Spark 실행 과정 by Catalyst Optimizer, Query plan 보는 법, Spark UI 보는 법 Query Plan을 보기에 앞서 Catalyst Optimzer에 대해 알아보고 Spark 코드의 실행 과정을 알아 보겠습니다. Catalyst Optimzer란?Spark SQL에서 쿼리 성능을 최적화하는 핵심 컴포넌트트리 기반의 강력한 쿼리 최적화 프레임워크로, 분석 및 실행 계획을 자동으로 최적화하여 Spark SQL, DataFrame, Dataset API의 성능을 극대화카탈리스트를 구성하는 주요 데이터 타입은 node object로 구성된 treeNode 타입의 속성TreeNode 클래스를 상속 받음0개 이상의 자식을 가질 수 있음immutabletansformation 함수를 통해 만들어짐 Rules새로운 Tree는 Tree를 다른 Tree로 변경(transformation)하는 Rule을.. 2022. 1. 12. [BigData] Apache Airflow 설치 및 실습하기 series (3) Airflow로 spark-submit(pyspark)하기with BashOperator 이번 포스트에는 spark-submit 실습한 파일을 가지고 설치한 airflow로 spark-submit해보도록 하겠습니다. + 헷갈리는 개념인 start_date, execution_date, schedule_interval, data interval에 대한 조작과 이해를 돕는 실습을 하겠습니다. spark-submit을 통해 만든 .py file과 실습내용은 아래의 링크에 있습니다. https://spidyweb.tistory.com/303 [Spark] spark standalone 모드로 pyspark 실습(.py spark submit)+ui확인하기 이번 포스트에서는 spark standalone 모드 즉, yarn을 이용하지 않고 local(단일 노드로) pyspark을 제출하는 .py 파일.. 2021. 11. 19. [Spark] spark standalone 모드로 pyspark 실습(.py spark submit)+ui확인하기 이번 포스트에서는 spark standalone 모드 즉, yarn을 이용하지 않고 local(단일 노드로) pyspark을 제출하는 .py 파일을 생성해 스크립트 실행을 시켜 제출해보도록 하겠습니다. 하둡 및 스파크를 설치하지 못하신 분은 아래의 링크를 참고해 주세요. 2021.04.26 - [BigData] - [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Down.. 2021. 11. 8. 이전 1 다음 728x90