본문 바로가기
728x90

Yarn5

[EMR,hadoop] EMR instance의 실제 CPU, Core, vCore, memory 확인 및 yarn과 비교 이번 포스트에는 emr을 띄워 node의 cpu,Core,vCore,memory 확인을 하고 이게 yarn에는 어떻게 적용되는지 확인하겠습니다. EMR 구성 core 2, vCore 4, 16 GiB m5.xlarge instance로 master,core,task node구성 EMR master node에 접속하여 실제 CPU,Core,vCore, memory 확인하기 emr master node에 ssh 접속이 궁금하신분은 아래의 링크를 참조 https://spidyweb.tistory.com/313?category=771995 [AWS] EMR-6.2.0 config with ssh tunneling(yarn UI 확인) 이번 포스트에는 EMR-6.2.0 버전을 Hadoop, Hive, Zookee.. 2021. 12. 17.
[AWS] EC2 의 vCPU, vCore, core당 스레드(논리 프로세서), yarn에서 vcore할당 비교 AWS EMR을 구성하는 EC2 한개의 스펙 vCPU: 코어 x 코어당 스레드, 논리프로세서라고도 불리며, 하나의 스레드 코어: 물리적인 CPU당 들어 있는 코어 개수 코어당 스레드: 1 or 2, 하이퍼 스레딩을 지원하는지 안하는지 차이에 따라 지원하면 2 YARN의 vCores 및 Memory master를 제외한 core노드, task노드의 코어수, 메모리 노드 수 코어 메모리 core 노드 1 8 vCore 32 GIB task 노드 6 64 vCore 256 GIB 노드 수 코어 메모리 yarn node 7 392(8+64x6) 1.48TB(32+256x6 - 시스템 메모리) 결론: EC2인스턴스에 설정된 vCore 수 합산,메모리 용량 합산이 yarn의 vCore, memory 용량을 결정하게.. 2021. 12. 10.
[AWS] EMR-6.2.0 config with ssh tunneling(yarn UI 확인) 이번 포스트에는 EMR-6.2.0 버전을 Hadoop, Hive, Zookeeper, livy,Spark JupyterHub와 JupyterEnterpirseGateway를 포함하여 띄우겠습니다. 1. Software Configuration HA 구성을 하시려면 use multiple mastger nodes 란에 check합니다(이번 포스트에는 HA구성 없음) AWS Glue Data Catalog Setting에는 Hive table과 Spark table의 metadata를 Glue로 대신하여서 연동할 것인지에 대해 물어보는 옵션인데, Glue에 작업해 둔 것이 있어서 체크.(없으신 분들은 체크 해제) JupyterEnterpriseGateway는 EMR과 연동할 Notebook에 필요 edit .. 2021. 11. 23.
[BigData] 완전 분산 하둡 클러스터(hadoop cluster)(4개 노드) 에 "Spark"(Spark on Yarn cluster) 설치 및 실습 하기 저번 포스트까지는 하둡 클러스터를 구성해보았습니다. 이번 포스트에는 구성된 하둡 클러스터에 Spark를 설치해보겠습니다. 본 포스팅은 standalone모드 4개를 구축하여 spark cluster를 만드는 것이 아닌, 구축된 hadoop cluster의 yarn위에 spark을 올리는 spark on yarn(cluster mode,master(yarn))입니다. 아직 hadoop cluster 구축이 안되신 분은 아래의 링크를 참고해주세요. https://spidyweb.tistory.com/266 [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 이번 포스트에는 하둡 fully-distributed mode 구축을 해보도록 하겠.. 2021. 11. 7.
[Hadoop] 하둡이란? 하둡 에코시스템이란? hadoop, hadoop eco-system 개념 1.Hadoop 이란? -하둡은 분산 데이터 처리의 공통 플랫폼입니다. -하둡을 3가지로 나눈다면 1) 데이터 저장의 분산 파일 시스템(Distributed file system) HDFS 2) 데이터 처리의 분산 데이터 처리(Distributed data processing) MapReduce(MR) 3) 자원 관리의 YARN(hadoop ver 2.0에 발표) -YARN의 역할 1) CPU나 메모리 등의 계산 리소스는 리소스 매니저인 YARN에 의해 관리 2) YARN은 애플리케이션이 사용하는 CPU 코어와 메모리를 '컨테이너라 불리는 단위로 관리) 3) Hadoop에서 분산 애플리케이션을 실행하면 YARN이 클러스터 전체의 부하를 보고 비어 있는 호스트부터 컨테이너를 할당 -MapReduce란 1).. 2021. 7. 12.
728x90