본문 바로가기
728x90

core5

[Spark] Spark 자주 쓰이는 Config 정리 driver,executor memory, dynamic allocation properties 분류 설명 예시 spark.master Application Properties 클러스터 매니저(리소스 매니저 설정) local[*], yarn, k8s://HOST:PORT, mesos: //HOST:PORT spark.driver.extraClassPath Runtime Environment 드라이버의 클래스 경로에 추가할 추가 클래스 경로 항목 /usr/lib/hadoop-lzo/lib/*:/usr/lib/hadoop/hadoop-aws.jar:/usr/share/aws/aws-java-sdk/*$spark.driver.extraLibraryPath /usr/lib/hadoop/lib/native:/usr/lib/hadoop-lzo/lib/native:/docker/usr/lib.. 2021. 12. 28.
[Spark Tuning] (spark on YARN)yarn container, spark core, executor 개수 Memory 용량 계산법 및 최적화 이번 포스트에는 Spark의 core, executor, memory 계산법 대해서 알아보겠습니다. Core ? vCore? 헷갈릴 개념 요즘은 하이퍼스레딩이라 하여 1코어에 2개의 스레드를 지원하는 instance들이 많습니다. core든 vCore든 가상화의 차이만 있을 뿐 같은 코어입니다. 여기서 중요한건 코어당 스레드가 1이냐 2이냐 차이인데, 아래의 instance는 8코어이지만 vCPU(vCore,가상 논리 프로세서=스레드)는 16입니다. *spark에 있어서 불리는 코어는 하이퍼스레딩은 지원하지 않으면 코어수 그대로겠지만, 지원한다면 vCPU인 가상 논리 프로세서의 수를 의미합니다. vCPU: 코어 x 코어당 스레드, 논리프로세서라고도 불리며, 하나의 스레드 코어: 물리적인 CPU당 들어 있.. 2021. 12. 20.
[EMR,hadoop] EMR instance의 실제 CPU, Core, vCore, memory 확인 및 yarn과 비교 이번 포스트에는 emr을 띄워 node의 cpu,Core,vCore,memory 확인을 하고 이게 yarn에는 어떻게 적용되는지 확인하겠습니다. EMR 구성 core 2, vCore 4, 16 GiB m5.xlarge instance로 master,core,task node구성 EMR master node에 접속하여 실제 CPU,Core,vCore, memory 확인하기 emr master node에 ssh 접속이 궁금하신분은 아래의 링크를 참조 https://spidyweb.tistory.com/313?category=771995 [AWS] EMR-6.2.0 config with ssh tunneling(yarn UI 확인) 이번 포스트에는 EMR-6.2.0 버전을 Hadoop, Hive, Zookee.. 2021. 12. 17.
[LINUX] linux CPU, Core수, vCore 확인방법 1.개요 CPU core 수를 셀 수 있다. 일반적인 경우, 하이퍼스레딩에 의해 OS(윈도우, 리눅스 등)에서 코어 수가 실제 코어 수의 2배로 인식된다. 예를 들어 싱글코어는 코어 2개로, 듀얼코어는 4개로 인식된다. 2.CPU 코어 전체 개수 grep -c processor /proc/cpuinfo → 가상 CPU 코어 수는 1 따라서 물리적으로는 1 코어. 3.CPU당 물리 코어 수 grep 'cpu cores' /proc/cpuinfo | tail -1 cpu cores : 1 → CPU당 물리 코어수가 1. 2021. 12. 8.
[Spark] spark on yarn cluster에 pyspark job submit(스파크 클러스터에 잡 던지고 UI 확인하기) 이번 포스트에는 spark를 yarn을 이용하여 cluster mode로 pyspark job을 제출하고, cluster로 잘 돌았는지 확인해보겠습니다. hadoop cluster가 구성 안되신 분들은 아래의 링크를 참조해주세요. 2021.08.08 - [BigData] - [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 이번 포스트에는 하둡 fully-distributed mode 구축을 해보도록 하겠습니다. 하둡 구성 스펙 호스트OS - windows10 home 게스트OS들 - centOS7 Hadoop -.. 2021. 11. 18.
728x90