[Hive] 분산 처리에서의 Skew 와 Distinct count의 성능 과의 관계
이번 포스트에는 Skew와 Skew의 개념에 대해서는 아래의 링크를 참조해주세요. 2021.10.05 - [BigData/Hive] - [Hive] Hive의 성능(테이블) (3) bucketing(버켓팅),skew(스큐), serde(서데), join type(맵 조인, 셔플 조인, 정렬-병합 조인)정리 [Hive] Hive의 성능(테이블) (3) bucketing(버켓팅),skew(스큐), serde(서데), join type(맵 조인, 셔플 조인, 정 이번 포스트에는 이전 포스트에서 전부 다루지는 못했던, Hive의 성능에 관한 것들을 위주로 다루어 보겠습니다. *Hive의 개념을 모르신다면 아래를 참조해주세요 2021.07.12 - [BigData] - [Hive] Hive란?(1) spidywe..
2023. 2. 12.
[EMR,hadoop] EMR instance의 실제 CPU, Core, vCore, memory 확인 및 yarn과 비교
이번 포스트에는 emr을 띄워 node의 cpu,Core,vCore,memory 확인을 하고 이게 yarn에는 어떻게 적용되는지 확인하겠습니다. EMR 구성 core 2, vCore 4, 16 GiB m5.xlarge instance로 master,core,task node구성 EMR master node에 접속하여 실제 CPU,Core,vCore, memory 확인하기 emr master node에 ssh 접속이 궁금하신분은 아래의 링크를 참조 https://spidyweb.tistory.com/313?category=771995 [AWS] EMR-6.2.0 config with ssh tunneling(yarn UI 확인) 이번 포스트에는 EMR-6.2.0 버전을 Hadoop, Hive, Zookee..
2021. 12. 17.
[Hive] Hive의 성능(테이블) (3) bucketing(버켓팅),skew(스큐), serde(서데), join type(맵 조인, 셔플 조인, 정렬-병합 조인)정리
이번 포스트에는 이전 포스트에서 전부 다루지는 못했던, Hive의 성능에 관한 것들을 위주로 다루어 보겠습니다. *Hive의 개념을 모르신다면 아래를 참조해주세요 2021.07.12 - [BigData] - [Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 [Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 1. Hive란? -하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. -RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 spidyweb.tistory.com *Hive의 메타스토어, Partition에 대해서 모르신다면 아래를 참조해주세요. 2021.06.27 - [BigData] - [Hive..
2021. 10. 5.