본문 바로가기
728x90

Hive15

[Hadoop] 하둡이란? 하둡 에코시스템이란? hadoop, hadoop eco-system 개념 1.Hadoop 이란? -하둡은 분산 데이터 처리의 공통 플랫폼입니다. -하둡을 3가지로 나눈다면 1) 데이터 저장의 분산 파일 시스템(Distributed file system) HDFS 2) 데이터 처리의 분산 데이터 처리(Distributed data processing) MapReduce(MR) 3) 자원 관리의 YARN(hadoop ver 2.0에 발표) -YARN의 역할 1) CPU나 메모리 등의 계산 리소스는 리소스 매니저인 YARN에 의해 관리 2) YARN은 애플리케이션이 사용하는 CPU 코어와 메모리를 '컨테이너라 불리는 단위로 관리) 3) Hadoop에서 분산 애플리케이션을 실행하면 YARN이 클러스터 전체의 부하를 보고 비어 있는 호스트부터 컨테이너를 할당 -MapReduce란 1).. 2021. 7. 12.
[Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 1. Hive란? -하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. -RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하며, 이 데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 이용하여 데이터를 조회하는 방법을 제공합니다. *가장 큰 특징으로는 메타스토어라는 것이 존재하는데, 하이브는 기존의 RDB와는 다르게 미리 스키마를 정의하고 그 틀에 맞게 데이터를 입력하는 것이 아닌, 데이터를 저장하고 거기에 스키마를 입히는(메타스토어에 입력하는) 것이 가장 큰 특징입니다. 2. Hive 구성요소 UI 사용자가 쿼리 및 기타 작업을 시스템에 제출하는 사용자 인터페이스 CLI, Beel.. 2021. 7. 12.
[Hadoop] HDFS에 데이터 저장하기(뉴욕택시 데이터,green taxi data) 이번 포스트에는 설치한 하둡에 뉴욕택시 데이터를 저장 해보겠습니다. 혹시 하둡을 설치하지 않으신 분은 아래의 포스트를 참고해주세요~ https://spidyweb.tistory.com/214?category=842040 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 3.ubuntu 에 hadoop(하둡) 다운로드,설치 이번 포스트에는 virtualbox에 하둡을 설치하겠습니다. virtualbox에 ubuntu를 설치하지 못하신 분이나, windows의 powershell로 ssh통신을 할 줄 모르시는 분이면 아래URL의 포스트부터 선행하여 주세요! spidyw spidyweb.tistory.com 1. local로 wget이용하여 데이터 저장하기 htt.. 2021. 7. 4.
[Hive] (2) Hive MetaStore, Partition, msck, DDL문,location 정리 이번 포스트에는 Hive의 가장 큰 특징인 Hive MetaStore, 그리고 bigdata를 다루는데 있어서 중요한 Partition에 관해서 정리 해보겠습니다. 중요한 내용이니 만큼 내용이깁니다. *Hive의 개념을 모르신다면 아래를 참조해주세요 2021.07.12 - [BigData] - [Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 [Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 1. Hive란? -하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. -RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 spidyweb.tistory.com 1. Hive Metastore란? 데이터 파일의 .. 2021. 6. 27.
[Hive] virtual box linux [ubuntu 18.04]에 Hive Metastore Mysql로 설정하기(변경하기) 이번 포스트에는 저번에 설치한 Hive의 MetaStore Embedded MetaStore인 derbyDB에서 이번포스트에는 local MetaStore인 MySQL, 다음 포스트에는 PostgreSQL로 각각 변경해보고 확인해보겠습니다. vritualbox 설치,ubuntu설치, ssh통신, hadoop 설치가 완료 되지 않으신 분은 아래의 URL을 참고하여 완료해 주세요. 1.virtualbox 설치 및 ubuntu 설치 spidyweb.tistory.com/212?category=842040 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbo.. 2021. 6. 26.
[BigData] 데이터 처리, Spark vs Hadoop vs Hive 공통점: 셋 다 bigdata처리를 지원하는 framework,솔루션 이다. 차이점: spark hadoop hive 역할 1.분산형 데이터 컬렉션 상부에서 동작하는 프로세싱 툴(메모리 기반) 1. 분산형 data infrastructure 2. 대량의 데이터 컬렉션을 사용 3.서 버 클러스터 내 복수의 노드들에 분산시키는 역할 4. 맞춤 제작한 하드웨어를 구매하고 유지하는데 들어가는 사용자의 비용 부담을 줄여준다 1.하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. 2.RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하며, 이 데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 .. 2021. 2. 10.
728x90