본문 바로가기
Cloud

HDFS 노드, EMR cluster 노드, Spark Application (process) 정리

by 스파이디웹 2021. 8. 19.
728x90

1. HDFS

name node

-데이터 블럭들에 대한 메타 정보

 

data node

-데이터 블럭을 읽고 쓴다.

 

journal node

-블럭들에 대한 이력을 관리한다.

 

2. EMR cluster EC2 node

master node

-YARN 역할

-HDFS name node 역할

 

core node

-data node daemon 역할

-task tracker daemon 역할

-YARN nodemanager daemon 역할

-hadoop MR 작업 역할

-spark 실행기 역할

 

task node

-hadoop MR 역할

-spark 실행기 역할

-데이터에 대한 병렬 계산 작업 역할

 

 

3. Spark Application (process)

Spark Application = driver process + 다수의 executor process

 

*driver와 executor process는 각각 노드에 구성이 됩니다.

*driver process는 꼭 master 혹은 core node로 배정 되지 않고, task node로 배정 받을 수 도 있습니다.

*driver, executor process는 cluster를 띄울때 마다 매번 다른 노드로 갱신됩니다.(같을 수도 있음)

 

driver process

-클러스터 노드 중 하나에서 실행되며 main()함수를 실행

-스파크 애플리케이션 정보의 유지 관리, 사용자 프로그램이나 입력에 대한 응답, 전반적인 익스큐터 프로세스의 작업과 관련된 분석, 배포 그리고 스케줄링 역할을 수행하기 때문에 필수적

-스파크 애플리케이션의 심장과 같은 존재, 애플리케이션의 수명 주기 동안 관련 정보를 모두 유지

 

executor porcess

-드라이버 프로세스가 할당한 작업을 수행

-진행 상황을 드라이버 노드에 보고

 

 

728x90

댓글