HDFS 노드, EMR cluster 노드, Spark Application (process) 정리

728x90

1. HDFS

name node

-데이터 블럭들에 대한 메타 정보

data node

-데이터 블럭을 읽고 쓴다.

journal node

-블럭들에 대한 이력을 관리한다.

2. EMR cluster EC2 node

master node

-YARN 역할

-HDFS name node 역할

core node

-data node daemon 역할

-task tracker daemon 역할

-YARN nodemanager daemon 역할

-hadoop MR 작업 역할

-spark 실행기 역할

task node

-hadoop MR 역할

-spark 실행기 역할

-데이터에 대한 병렬 계산 작업 역할

3. Spark Application (process)

Spark Application = driver process + 다수의 executor process

*driver와 executor process는 각각 노드에 구성이 됩니다.

*driver process는 꼭 master 혹은 core node로 배정 되지 않고, task node로 배정 받을 수 도 있습니다.

*driver, executor process는 cluster를 띄울때 마다 매번 다른 노드로 갱신됩니다.(같을 수도 있음)

driver process

-클러스터 노드 중 하나에서 실행되며 main()함수를 실행

-스파크 애플리케이션 정보의 유지 관리, 사용자 프로그램이나 입력에 대한 응답, 전반적인 익스큐터 프로세스의 작업과 관련된 분석, 배포 그리고 스케줄링 역할을 수행하기 때문에 필수적

-스파크 애플리케이션의 심장과 같은 존재, 애플리케이션의 수명 주기 동안 관련 정보를 모두 유지

executor porcess

-드라이버 프로세스가 할당한 작업을 수행

-진행 상황을 드라이버 노드에 보고

728x90

'Cloud' 카테고리의 다른 글

[EMR,hadoop] EMR instance의 실제 CPU, Core, vCore, memory 확인 및 yarn과 비교 (0)	2021.12.17

데이터 엔지니어를 꿈꾸는 Spidy web블로그

HDFS 노드, EMR cluster 노드, Spark Application (process) 정리

1. HDFS

2. EMR cluster EC2 node

3. Spark Application (process)

'Cloud' 카테고리의 다른 글

댓글

티스토리툴바

HDFS 노드, EMR cluster 노드, Spark Application (process) 정리

1. HDFS

2. EMR cluster EC2 node

3. Spark Application (process)

'Cloud' 카테고리의 다른 글

관련글

댓글

티스토리툴바