본문 바로가기
728x90

memory6

[Spark] cache() vs persist() 차이점 정리 (feat. storage level) cache() test_df.cache() # test_df를 캐싱 test_df.storageLevel # org.apache.spark.storage.StorageLevel = StorageLevel(disk, memory, deserialized, 1 replicas) persist() import org.apache.spark.storage.StorageLevel # storage 명시를 위한 library import test2_df.persist(StorageLevel.MEMORY_AND_DISK) # test2_df에 persist를 하면서 storage lvl을 명시 test2_df.storageLevel # org.apache.spark.storage.StorageLevel = Stora.. 2023. 9. 19.
[Spark] Spark tuning, job에 따른 최적의 Partition 크기, 개수 조정하기 이번 포스트에는 Partition 수 조정에 관한 spark tuning을 알아 보겠습니다. Partition 개념에 대해 잘 모르시다면 아래의 링크를 참조해주세요. https://spidyweb.tistory.com/312 [Spark Tuning] Spark의 Partition 개념, spark.sql.shuffle.partitions, coalesce() vs repartition(), partitionBy()와의 차이 이번 포스트에는 Spark의 Partition 개념, 종류 및 조작관련 팁, 헷갈릴 만한 개념에 대해 포스트 해보겠습니다. Partition이란? Partition은 RDDs나 Dataset를 구성하고 있는 최소 단위 객체입니다. 각 Partition spidyweb.tistory... 2022. 1. 11.
[Spark Tuning] (spark on YARN)yarn container, spark core, executor 개수 Memory 용량 계산법 및 최적화 이번 포스트에는 Spark의 core, executor, memory 계산법 대해서 알아보겠습니다. Core ? vCore? 헷갈릴 개념 요즘은 하이퍼스레딩이라 하여 1코어에 2개의 스레드를 지원하는 instance들이 많습니다. core든 vCore든 가상화의 차이만 있을 뿐 같은 코어입니다. 여기서 중요한건 코어당 스레드가 1이냐 2이냐 차이인데, 아래의 instance는 8코어이지만 vCPU(vCore,가상 논리 프로세서=스레드)는 16입니다. *spark에 있어서 불리는 코어는 하이퍼스레딩은 지원하지 않으면 코어수 그대로겠지만, 지원한다면 vCPU인 가상 논리 프로세서의 수를 의미합니다. vCPU: 코어 x 코어당 스레드, 논리프로세서라고도 불리며, 하나의 스레드 코어: 물리적인 CPU당 들어 있.. 2021. 12. 20.
[EMR,hadoop] EMR instance의 실제 CPU, Core, vCore, memory 확인 및 yarn과 비교 이번 포스트에는 emr을 띄워 node의 cpu,Core,vCore,memory 확인을 하고 이게 yarn에는 어떻게 적용되는지 확인하겠습니다. EMR 구성 core 2, vCore 4, 16 GiB m5.xlarge instance로 master,core,task node구성 EMR master node에 접속하여 실제 CPU,Core,vCore, memory 확인하기 emr master node에 ssh 접속이 궁금하신분은 아래의 링크를 참조 https://spidyweb.tistory.com/313?category=771995 [AWS] EMR-6.2.0 config with ssh tunneling(yarn UI 확인) 이번 포스트에는 EMR-6.2.0 버전을 Hadoop, Hive, Zookee.. 2021. 12. 17.
[AWS] EC2 의 vCPU, vCore, core당 스레드(논리 프로세서), yarn에서 vcore할당 비교 AWS EMR을 구성하는 EC2 한개의 스펙 vCPU: 코어 x 코어당 스레드, 논리프로세서라고도 불리며, 하나의 스레드 코어: 물리적인 CPU당 들어 있는 코어 개수 코어당 스레드: 1 or 2, 하이퍼 스레딩을 지원하는지 안하는지 차이에 따라 지원하면 2 YARN의 vCores 및 Memory master를 제외한 core노드, task노드의 코어수, 메모리 노드 수 코어 메모리 core 노드 1 8 vCore 32 GIB task 노드 6 64 vCore 256 GIB 노드 수 코어 메모리 yarn node 7 392(8+64x6) 1.48TB(32+256x6 - 시스템 메모리) 결론: EC2인스턴스에 설정된 vCore 수 합산,메모리 용량 합산이 yarn의 vCore, memory 용량을 결정하게.. 2021. 12. 10.
[Spark] spark on yarn cluster에 pyspark job submit(스파크 클러스터에 잡 던지고 UI 확인하기) 이번 포스트에는 spark를 yarn을 이용하여 cluster mode로 pyspark job을 제출하고, cluster로 잘 돌았는지 확인해보겠습니다. hadoop cluster가 구성 안되신 분들은 아래의 링크를 참조해주세요. 2021.08.08 - [BigData] - [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 이번 포스트에는 하둡 fully-distributed mode 구축을 해보도록 하겠습니다. 하둡 구성 스펙 호스트OS - windows10 home 게스트OS들 - centOS7 Hadoop -.. 2021. 11. 18.
728x90