본문 바로가기
728x90

BigData/Hive13

[Hive] 분산 처리에서의 Skew 와 Distinct count의 성능 과의 관계 이번 포스트에는 Skew와 Skew의 개념에 대해서는 아래의 링크를 참조해주세요. 2021.10.05 - [BigData/Hive] - [Hive] Hive의 성능(테이블) (3) bucketing(버켓팅),skew(스큐), serde(서데), join type(맵 조인, 셔플 조인, 정렬-병합 조인)정리 [Hive] Hive의 성능(테이블) (3) bucketing(버켓팅),skew(스큐), serde(서데), join type(맵 조인, 셔플 조인, 정 이번 포스트에는 이전 포스트에서 전부 다루지는 못했던, Hive의 성능에 관한 것들을 위주로 다루어 보겠습니다. *Hive의 개념을 모르신다면 아래를 참조해주세요 2021.07.12 - [BigData] - [Hive] Hive란?(1) spidywe.. 2023. 2. 12.
[Hive,Spark] Hive와 SparkSQL의 호환성 Hive와의 호환성 spark SQL은 Hive Metastore, SerDes(Serialization Deserialization), UDFs(UserDefineFunctions)와 호환성을 염두하여 디자인 됨 1-1. 지원되는 하이브 특징 Hive 쿼리문 SELECT GROUP BY ORDER BY DISTRIBUTE BY CLUSTER BY SORT BY Hive 연산자 관계 연산자(=, , ==, , , >=, 1, Hive 는 null, Spark SQL NaN return ASIN(n) n 1, Hive 는 null, Spark SQL NaN return CAST(n AS TIMESTAMP) n이 정수면 Hive는 n 을 밀리초로 취급, Spark SQL 은 n 을 초로.. 2021. 11. 30.
[Hive] Hive on Hadoop cluster 실습 + yarn ui 확인하기 이번 포스트에는 fully distributed hadoop cluster에 HQL파일을 생성하여 job을 제출하는 실습을 해보겠습니다. 하둡 및 하이브를 설치하지 못하신 분은 아래의 링크를 참조해주세요. 2021.08.08 - [BigData] - [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 이번 포스트에는 하둡 fully-distributed mode 구축을 해보도록 하겠습니다. 하둡 구성 스펙 호스트OS - windows10 home 게스트OS들 - centOS7 Hadoop - 3.1.0 Zookeep.. 2021. 11. 23.
[HIVE] (Hive 실습)Hadoop ETL with (HiveQL)HQL파일,HQL파일로 hadoop에 job제출하기 이번 포스트에는 standalone(pseudo distributed hadoop cluster)에 HQL파일을 생성하여 job을 제출하는 실습을 해보겠습니다. 하둡 및 하이브를 설치하지 못하신 분은 아래의 링크를 참조해주세요. 2021.04.26 - [BigData] - [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Downloads – Oracle VM Virtua.. 2021. 11. 8.
[BigData] 완전 분산 하둡 클러스터(hadoop cluster)(4개 노드) 에 "Hive" 설치 및 실습 하기 저번 포스트까지는 하둡 클러스터를 구성해보았습니다. 이번 포스트에는 구성된 하둡 클러스터에 Hive를 설치해보겠습니다. 아직 hadoop cluster 구축이 안되신 분은 아래의 링크를 참고해주세요. https://spidyweb.tistory.com/266 [BigData] Centos-7 fully distributed hadoop cluster 구성하기(하둡 클러스터) 1. 4개의 가상 노드 띄우기 이번 포스트에는 하둡 fully-distributed mode 구축을 해보도록 하겠습니다. 하둡 구성 스펙 호스트OS - windows10 home 게스트OS들 - centOS7 Hadoop - 3.1.0 Zookeeper - 3.4.10 jdk - 1.8.0_191 호스트OS는 공.. spidyweb... 2021. 10. 11.
[Hive] Hive의 성능(테이블) (3) bucketing(버켓팅),skew(스큐), serde(서데), join type(맵 조인, 셔플 조인, 정렬-병합 조인)정리 이번 포스트에는 이전 포스트에서 전부 다루지는 못했던, Hive의 성능에 관한 것들을 위주로 다루어 보겠습니다. *Hive의 개념을 모르신다면 아래를 참조해주세요 2021.07.12 - [BigData] - [Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 [Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 1. Hive란? -하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. -RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 spidyweb.tistory.com *Hive의 메타스토어, Partition에 대해서 모르신다면 아래를 참조해주세요. 2021.06.27 - [BigData] - [Hive.. 2021. 10. 5.
[Hive] Hive-site.xml (2) 주요 property 소개 hive.metastore.warehouse.dir : 데이터 웨어하우스를 저장하는 기본 디렉토리입니다. 기본값은 /user/hive/warehouse hive.exec.scratchdir : 하이브 잡이 수행될 때 생성되는 데이터를 저장할 HDFS 디렉토리입니다. 기본 경로는 “/tmp/hive-계정명” hive.metastore.local : 원격 서버에 설치된메타스토어데이터베이스에 접속할 것인지,로컬에 아파치 더비를 이용할 것인지 설정합니다.기본값은true로 설정돼 있어서,로컬의 아파치 더비를 사용합니다.여러 사용자가 함께 사용한다면false로 설정한 후, JDBC설정 속성을 함께 등록 javax.jdo.option.ConnectionDriverName : 메타스토어 데이터베이스에 접근할 때 사용할.. 2021. 7. 13.
[Hive] virtual box linux [ubuntu 18.04]에 Hive Metastore PostgreSQL로 설정하기(변경하기) 이번 포스트에는 저번에 설정한 Hive의 MetaStore Embedded MetaStore인 derbyDB(MySQL)에서 PostgreSQL로 각각 변경해보고 확인해보겠습니다. vritualbox 설치,ubuntu설치, ssh통신, hadoop 설치가 완료 되지 않으신 분은 아래의 URL을 참고하여 완료해 주세요. 1.virtualbox 설치 및 ubuntu 설치 spidyweb.tistory.com/212?category=842040 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Downloads – O.. 2021. 7. 13.
[Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 1. Hive란? -하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. -RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하며, 이 데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 이용하여 데이터를 조회하는 방법을 제공합니다. *가장 큰 특징으로는 메타스토어라는 것이 존재하는데, 하이브는 기존의 RDB와는 다르게 미리 스키마를 정의하고 그 틀에 맞게 데이터를 입력하는 것이 아닌, 데이터를 저장하고 거기에 스키마를 입히는(메타스토어에 입력하는) 것이 가장 큰 특징입니다. 2. Hive 구성요소 UI 사용자가 쿼리 및 기타 작업을 시스템에 제출하는 사용자 인터페이스 CLI, Beel.. 2021. 7. 12.
728x90