본문 바로가기

728x90

emr10

[Spark] EMR을 구성하는 instance는 큰 spec이 유리할까? 작은 spec이 유리할까? EMR을 구성할 때 작은 스펙의 많은 노드가 유리한지 큰 스펙의 적은 노드가 유리한지 비교하여 정리해보겠습니다. 1. 큰 스펙의 인스턴스를 적게 사용하는 경우장점네트워크 병목 감소인스턴스 수가 적어 노드 간 통신(예: Shuffle, Data Transfer) 비용이 줄어듦네트워크 I/O가 줄어들어 성능이 향상될 가능성이 높음작업 간 Overhead 감소인스턴스 수가 적으므로, 작업(Task) 배포와 조정에 소요되는 Overhead가 줄어듦클러스터 관리가 간단해지고 효율성이 높아짐CPU, 메모리 활용 효율성 증가단일 인스턴스에 많은 CPU와 메모리를 할당하므로, Spark 작업의 병렬 처리 능력이 향상됨메모리 내 연산이 가능할 확률이 높아지고 Disk Spill이 줄어듦기본적으로 사용되는 메모리 및 코어.. 2025. 1. 14.

[Spark] YARN vs k8s vs mesos 스파크 리소스 및 작업 스케줄링 spark에서 사용할 수 있는, 정확히는 hadoop의 YARN대신에 사용 할 수 있는 리소스와 작업 스케줄링을 담당하는 컴포넌트에 대해서 비교 해보겠습니다. 1. 아키텍처 및 설계 목적항목YARNKubernetesMesos목적Hadoop 에코시스템 내에서 자원 관리를 위한 분산 리소스 관리컨테이너화된 애플리케이션의 배포, 확장 및 관리를 위한 오케스트레이션다양한 워크로드 (컨테이너, Spark, Hadoop 등)를 통합 관리하는 범용 리소스 관리주요 구성 요소ResourceManager, NodeManager, ApplicationMasterMaster(Node), Worker(Node), kubelet, kube-proxy, podMaster, Agent(Slave), Framework (Marath.. 2025. 1. 7.

[Airflow] TO-BE Batch job 프로세스 개선 - 3) DAG 이전 및 이슈 정리 포스트는 총 3개로 나뉘어 진행되며, 이번 포스트가 3번째 포스트입니다.1. [Airflow] TO-BE Batch job 프로세스 개선 - 1) Airflow on k8s 이전 (AWS EKS)https://spidyweb.tistory.com/543 2. [Airflow] TO-BE Batch job 프로세스 개선 - 2) 거버넌스, 표준, 형상 관리, 자동화, 프로세스 단축https://spidyweb.tistory.com/544 3. [Airflow] TO-BE Batch job 프로세스 개선 - 3) DAG 이전 및 이슈 정리https://spidyweb.tistory.com/5451. DAG 이전 경험 공유기존에 존재하던 다양한 명칭 → 표준화된 규칙에의해 .py , DAG 명 일괄 변경 및 .. 2024. 6. 22.

[Spark] issue 정리, java.lang.ExceptionInInitializerError 와 java.lang.IllegalStateException: SparkSession should only be created and accessed on the driver scala언어로 spark object를 만들고 jar로 빌드하여 EMR에 제출할 때 나온 에러를 정리하겠습니다.spark관련 정리는 오랜만이네요.1. 원인 파악분명 다른 object와 다른점 없고, jar파일 위치 이름, class 이름까지도 경로에 명시를 잘해 줬는데도 위 제목과 같은 에러가나와서 계속 헤메고 있던 때에 리서칭을 통해서 원인을 파악할 수 있었습니다.scala object에서 다음과 같은 에러가 나온 경우, 주로 Apache Spark에서 SparkSession이 드라이버 노드가 아닌 워커 노드에서 생성되거나 접근될 때 발생된다고 합니다.→ 이는 SparkSession이 조정 목적으로 드라이버에서 관리되어야 하는 싱글톤 객체이기 때문 java.lang.ExceptionInInitial.. 2024. 6. 22.

[Spark] Spark Cluster mode vs Client mode (feat. 왜 EMR Serverless는 Client mode일까?) EMR Serverless가 client mode로 설정되어 있는 것을 보면서 왜 client 모드 일까? cluster모드는 안되는 걸까? 라는 의문점을 가졌었고, 막상 두 개의 차이점을 설명하려 해봐도 명확히는 설명을 할 수 없어서 이번 기회에 비교하여 정해보겠습니다. Spark Driver 비교해보기에 앞서 driver 개념이 두 개를 비교할 때 필요 하므로, Spark Driver부터 간단하게 짚고 넘어가겠습니다. 프로그램의 main()메소드가 실행되는 프로세스 Spark Context, Spark Session을 생성하고 RDD를 만들고 Transformation, action 등을 실행하는 사용자 코드를 실행 DF, DS, UDF를 생성하고 애플리케이션 정보 유지 관리를 담당 Cluster M.. 2023. 8. 30.

[AWS] s3 vs s3a vs s3n 차이 정리 s3 vs s3a vs s3n s3 s3a s3n 공통점 ○ 하둡의 저장소가 hdfs가 아닌, AWS s3일 때 클라이언트를 제공하는 파일시스템 종류(s3에 읽기,쓰기를 가능하게 해주는 어댑터) ○ AWS s3에 저장하게 해주는 하둡의 각각 다른 파일시스템 URI s3:// s3a:// s3n:// 파일 크기 제한 5GB보다 클 수 있지만 다른 S3 도구와 상호 운용할 수 없음 큰 파일(5GB 제한 없음), 고성능 작업 등을 지원 가능 단일 파일 크기에 대한 5GB 제한있음 특징 ○ S3가 지원하는 하둡 호환 블록 기반 파일 시스템 ○ 파일이 포함된 기존 버킷을 사용하거나 다른 파일을 동일한 버킷에 쓰지 않아야 함 ○ HDFS에 있는 것처럼 블록으로 저장 ○ 파일 시스템 전용 버킷이 필요 ○ 읽기 성능은.. 2023. 2. 23.

[EMR,hadoop] EMR instance의 실제 CPU, Core, vCore, memory 확인 및 yarn과 비교 이번 포스트에는 emr을 띄워 node의 cpu,Core,vCore,memory 확인을 하고 이게 yarn에는 어떻게 적용되는지 확인하겠습니다. EMR 구성 core 2, vCore 4, 16 GiB m5.xlarge instance로 master,core,task node구성 EMR master node에 접속하여 실제 CPU,Core,vCore, memory 확인하기 emr master node에 ssh 접속이 궁금하신분은 아래의 링크를 참조 https://spidyweb.tistory.com/313?category=771995 [AWS] EMR-6.2.0 config with ssh tunneling(yarn UI 확인) 이번 포스트에는 EMR-6.2.0 버전을 Hadoop, Hive, Zookee.. 2021. 12. 17.

[AWS] EC2 의 vCPU, vCore, core당 스레드(논리 프로세서), yarn에서 vcore할당 비교 AWS EMR을 구성하는 EC2 한개의 스펙 vCPU: 코어 x 코어당 스레드, 논리프로세서라고도 불리며, 하나의 스레드 코어: 물리적인 CPU당 들어 있는 코어 개수 코어당 스레드: 1 or 2, 하이퍼 스레딩을 지원하는지 안하는지 차이에 따라 지원하면 2 YARN의 vCores 및 Memory master를 제외한 core노드, task노드의 코어수, 메모리 노드 수 코어 메모리 core 노드 1 8 vCore 32 GIB task 노드 6 64 vCore 256 GIB 노드 수 코어 메모리 yarn node 7 392(8+64x6) 1.48TB(32+256x6 - 시스템 메모리) 결론: EC2인스턴스에 설정된 vCore 수 합산,메모리 용량 합산이 yarn의 vCore, memory 용량을 결정하게.. 2021. 12. 10.

[AWS] EMR-6.2.0 config with ssh tunneling(yarn UI 확인) 이번 포스트에는 EMR-6.2.0 버전을 Hadoop, Hive, Zookeeper, livy,Spark JupyterHub와 JupyterEnterpirseGateway를 포함하여 띄우겠습니다. 1. Software Configuration HA 구성을 하시려면 use multiple mastger nodes 란에 check합니다(이번 포스트에는 HA구성 없음) AWS Glue Data Catalog Setting에는 Hive table과 Spark table의 metadata를 Glue로 대신하여서 연동할 것인지에 대해 물어보는 옵션인데, Glue에 작업해 둔 것이 있어서 체크.(없으신 분들은 체크 해제) JupyterEnterpriseGateway는 EMR과 연동할 Notebook에 필요 edit .. 2021. 11. 23.

이전 1 2 다음

728x90

티스토리툴바