본문 바로가기
728x90

전체 글334

[Data] 데이터 레이크(data lake)란? 데이터 레이크란? 데이터를 있는 그대로 축적해서 모아두는 곳 데이터를 원래의 형태(미가공의 원시데이터)로 축적해두고 나중에 그것을 필요에 따라 가공하는 구조 데이터를 축적하는 호수에 비유 CSV나 JSON 등의 범용적인 반구조화 텍스트형식이 대부분 사용된다. 구조화된 데이터, 반구조화 된 데이터, 비구조화 데이터가 적재된다. 데이터 웨어하우스를 대체하는 개념 하둡의 HDFS, AWS S3처럼 객체 저장소가 데이터 레이크의 역할을 수행 할 수 있다. *구조화 데이터: 스키마가 명확하게 정의된 데이터 ex) 테이블,csv(반구조화가 될수도 있음),스프레드시트(반구조화가 될수도 있음) *반구조화 데이터: 스키마리스 데이터 라고도 불리며, 데이터 서식은 정해져 있지만, 칼럼 수나 데이터형은 명확하지 않은 데이터.. 2021. 8. 6.
[Hive] Hive-site.xml (2) 주요 property 소개 hive.metastore.warehouse.dir : 데이터 웨어하우스를 저장하는 기본 디렉토리입니다. 기본값은 /user/hive/warehouse hive.exec.scratchdir : 하이브 잡이 수행될 때 생성되는 데이터를 저장할 HDFS 디렉토리입니다. 기본 경로는 “/tmp/hive-계정명” hive.metastore.local : 원격 서버에 설치된메타스토어데이터베이스에 접속할 것인지,로컬에 아파치 더비를 이용할 것인지 설정합니다.기본값은true로 설정돼 있어서,로컬의 아파치 더비를 사용합니다.여러 사용자가 함께 사용한다면false로 설정한 후, JDBC설정 속성을 함께 등록 javax.jdo.option.ConnectionDriverName : 메타스토어 데이터베이스에 접근할 때 사용할.. 2021. 7. 13.
[Hive] virtual box linux [ubuntu 18.04]에 Hive Metastore PostgreSQL로 설정하기(변경하기) 이번 포스트에는 저번에 설정한 Hive의 MetaStore Embedded MetaStore인 derbyDB(MySQL)에서 PostgreSQL로 각각 변경해보고 확인해보겠습니다. vritualbox 설치,ubuntu설치, ssh통신, hadoop 설치가 완료 되지 않으신 분은 아래의 URL을 참고하여 완료해 주세요. 1.virtualbox 설치 및 ubuntu 설치 spidyweb.tistory.com/212?category=842040 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Downloads – O.. 2021. 7. 13.
[Hadoop] 하둡이란? 하둡 에코시스템이란? hadoop, hadoop eco-system 개념 1.Hadoop 이란? -하둡은 분산 데이터 처리의 공통 플랫폼입니다. -하둡을 3가지로 나눈다면 1) 데이터 저장의 분산 파일 시스템(Distributed file system) HDFS 2) 데이터 처리의 분산 데이터 처리(Distributed data processing) MapReduce(MR) 3) 자원 관리의 YARN(hadoop ver 2.0에 발표) -YARN의 역할 1) CPU나 메모리 등의 계산 리소스는 리소스 매니저인 YARN에 의해 관리 2) YARN은 애플리케이션이 사용하는 CPU 코어와 메모리를 '컨테이너라 불리는 단위로 관리) 3) Hadoop에서 분산 애플리케이션을 실행하면 YARN이 클러스터 전체의 부하를 보고 비어 있는 호스트부터 컨테이너를 할당 -MapReduce란 1).. 2021. 7. 12.
[Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 1. Hive란? -하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. -RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하며, 이 데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 이용하여 데이터를 조회하는 방법을 제공합니다. *가장 큰 특징으로는 메타스토어라는 것이 존재하는데, 하이브는 기존의 RDB와는 다르게 미리 스키마를 정의하고 그 틀에 맞게 데이터를 입력하는 것이 아닌, 데이터를 저장하고 거기에 스키마를 입히는(메타스토어에 입력하는) 것이 가장 큰 특징입니다. 2. Hive 구성요소 UI 사용자가 쿼리 및 기타 작업을 시스템에 제출하는 사용자 인터페이스 CLI, Beel.. 2021. 7. 12.
[Hadoop] HDFS에 데이터 저장하기(뉴욕택시 데이터,green taxi data) 이번 포스트에는 설치한 하둡에 뉴욕택시 데이터를 저장 해보겠습니다. 혹시 하둡을 설치하지 않으신 분은 아래의 포스트를 참고해주세요~ https://spidyweb.tistory.com/214?category=842040 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 3.ubuntu 에 hadoop(하둡) 다운로드,설치 이번 포스트에는 virtualbox에 하둡을 설치하겠습니다. virtualbox에 ubuntu를 설치하지 못하신 분이나, windows의 powershell로 ssh통신을 할 줄 모르시는 분이면 아래URL의 포스트부터 선행하여 주세요! spidyw spidyweb.tistory.com 1. local로 wget이용하여 데이터 저장하기 htt.. 2021. 7. 4.
[Hive] (2) Hive MetaStore, Partition, msck, DDL문,location 정리 이번 포스트에는 Hive의 가장 큰 특징인 Hive MetaStore, 그리고 bigdata를 다루는데 있어서 중요한 Partition에 관해서 정리 해보겠습니다. 중요한 내용이니 만큼 내용이깁니다. *Hive의 개념을 모르신다면 아래를 참조해주세요 2021.07.12 - [BigData] - [Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 [Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 1. Hive란? -하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. -RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 spidyweb.tistory.com 1. Hive Metastore란? 데이터 파일의 .. 2021. 6. 27.
[Linux] ubuntu 18.04에 MySQL, PostgreSQL 설치하기 1.MySQL 설치 1) apt-get update sudo apt-get update 2) MySQL server 설치 sudo apt-get install mysql-server 3) mysql 실행하기 sudo systemctl start mysql #시작할때 자동으로 mysql실행하기 sudo systemctl enable mysql 4) mysql 프롬프트 접속 sudo /usr/bin/mysql -u root -p -mysql에 접속할때 root 계정에 패스워드 없이 접속했고, root 계정에 패스워드를 추가해 보겠습니다. -패스워드를 변경하는 쿼리는 mysql 버전별로 조금 다르기 때문에 버전을 먼저 확인해 보겠습니다. 5)버전 확인 SHOW VARIABLES LIKE '%version%';.. 2021. 6. 26.
[Hive] virtual box linux [ubuntu 18.04]에 Hive Metastore Mysql로 설정하기(변경하기) 이번 포스트에는 저번에 설치한 Hive의 MetaStore Embedded MetaStore인 derbyDB에서 이번포스트에는 local MetaStore인 MySQL, 다음 포스트에는 PostgreSQL로 각각 변경해보고 확인해보겠습니다. vritualbox 설치,ubuntu설치, ssh통신, hadoop 설치가 완료 되지 않으신 분은 아래의 URL을 참고하여 완료해 주세요. 1.virtualbox 설치 및 ubuntu 설치 spidyweb.tistory.com/212?category=842040 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbo.. 2021. 6. 26.
728x90