1. HDFS
name node
-데이터 블럭들에 대한 메타 정보
data node
-데이터 블럭을 읽고 쓴다.
journal node
-블럭들에 대한 이력을 관리한다.
2. EMR cluster EC2 node
master node
-YARN 역할
-HDFS name node 역할
core node
-data node daemon 역할
-task tracker daemon 역할
-YARN nodemanager daemon 역할
-hadoop MR 작업 역할
-spark 실행기 역할
task node
-hadoop MR 역할
-spark 실행기 역할
-데이터에 대한 병렬 계산 작업 역할
3. Spark Application (process)
Spark Application = driver process + 다수의 executor process
*driver와 executor process는 각각 노드에 구성이 됩니다.
*driver process는 꼭 master 혹은 core node로 배정 되지 않고, task node로 배정 받을 수 도 있습니다.
*driver, executor process는 cluster를 띄울때 마다 매번 다른 노드로 갱신됩니다.(같을 수도 있음)
driver process
-클러스터 노드 중 하나에서 실행되며 main()함수를 실행
-스파크 애플리케이션 정보의 유지 관리, 사용자 프로그램이나 입력에 대한 응답, 전반적인 익스큐터 프로세스의 작업과 관련된 분석, 배포 그리고 스케줄링 역할을 수행하기 때문에 필수적
-스파크 애플리케이션의 심장과 같은 존재, 애플리케이션의 수명 주기 동안 관련 정보를 모두 유지
executor porcess
-드라이버 프로세스가 할당한 작업을 수행
-진행 상황을 드라이버 노드에 보고
'Cloud' 카테고리의 다른 글
[EMR,hadoop] EMR instance의 실제 CPU, Core, vCore, memory 확인 및 yarn과 비교 (0) | 2021.12.17 |
---|
댓글