본문 바로가기
728x90

BigData101

[Hive] Hive MetaStore(하이브 메타스토어)란? hive metastore 유형, metastore 파라미터 1.Hive metastore(메타스토어)란 하이브는 테이블과 파티션과 관련된 메타정보를 모두 메타스토어에 저장합니다. 하이브는 기존의 RDBMS와 달리 데이터를 insert후 스키마를 입히게 되는데, 그때 스키마 정보를 메타스토어에서 참조하여 가져옵니다. 2.Hive 메타스토어의 유형 하이브의 메타스토어 유형에는 임베디드 메타스토어(Embedded metastore), 로컬 메타스토어(Local metastore), 원격 메타스토어(Remote metastore) 세가지 유형이 있습니다. 임베디드 메타스토어(Embedded metastore) 하이브를 설치하면 기본적으로 임베디드 메타스토어를 사용합니다. 이 경우 메타스토어가 로컬 장비에 파일로 생성되므로 한번에 하나의 프로세스만 메타스토어에 접근할 수.. 2021. 6. 26.
[Spark] virtual box linux [ubuntu 18.04]에 스파크 설치,다운로드 5.ubuntu 에 spark(스파크) 다운로드,설치 이번 포스트에는 Spark를 설치해 보겠습니다. vritualbox 설치,ubuntu설치, ssh통신, hadoop 설치가 완료 되지 않으신 분은 아래의 URL을 참고하여 완료해 주세요. 1.virtualbox 설치 및 ubuntu 설치 spidyweb.tistory.com/212?category=842040 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Downloads – Oracle VM VirtualBox Download VirtualBox Here you will find links to Virtua.. 2021. 5. 16.
[Hive] virtual box linux [ubuntu 18.04]에 하이브 설치,다운로드 4.ubuntu 에 Hive(하이브) 다운로드 이번 포스트에는 Hive를 설치해 보겠습니다. vritualbox 설치,ubuntu설치, ssh통신, hadoop 설치가 완료 되지 않으신 분은 아래의 URL을 참고하여 완료해 주세요. 1.virtualbox 설치 및 ubuntu 설치 spidyweb.tistory.com/212?category=842040 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Downloads – Oracle VM VirtualBox Download VirtualBox Here you will find links to Virtual.. 2021. 5. 8.
[Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 3.ubuntu 에 hadoop(하둡) 다운로드,설치 이번 포스트에는 virtualbox에 하둡을 설치하겠습니다. virtualbox에 ubuntu를 설치하지 못하신 분이나, windows의 powershell로 ssh통신을 할 줄 모르시는 분이면 아래URL의 포스트부터 선행하여 주세요! spidyweb.tistory.com/212 vitual box와 ubuntu 설치하기 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Downloads – Oracle VM VirtualBox Download VirtualBox Here you will find links to.. 2021. 5. 2.
[Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 2.ubuntu terminal과 SSH 통신 1.ubuntu에 openssh-server 설치 2.ssh 시작하기 3.포트포워딩 설정하기 virtualbox 설정 - 네트워크 - 포트포워딩 + 클릭 - ubuntu를 만들게되면 보통 ip가 10.0.2.15로 할당됩니다. 여기서 중요한건 게스트ip랑 포트번호(ssh 22) 4.windows의 powershell창에서 ubuntu 원격 접속 powershell 창에서 ssh 127.0.0.1 -l 자신의 ubuntu 계정입력 -> 해당 서버가 알려진 ssh 호스트의 로컬시스템 목록에 추가하기위해 yes 입력 -> 비밀번호 설정하기 -> 우분투 ssh접속완료 다음 포스트에는 ubuntu에 하둡을 설치 해보겠습니다. 아직 ubuntu설치하는 법에 대해서 모르시는 분들은 아래의 링크를 참조하여 주세요~ s.. 2021. 4. 26.
[Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Downloads – Oracle VM VirtualBox Download VirtualBox Here you will find links to VirtualBox binaries and its source code. VirtualBox binaries By downloading, you agree to the terms and conditions of the respective license. If you're looking for the latest VirtualBox 6.0 packages, see Virt www.virtualbox.org windows host 다운로드 2.virtual box .. 2021. 4. 26.
[BigData] SQL을 Spark Dataframe API,Method로 변환하기(select,selectExpr,col,Join,Windowfunction,inline view) 1. dataframe Method로 select,selectExpr,expr,col 이용하여 컬럼 출력하기(with 집계함수) expr을 사용할 때는 expr("") 따옴표안에 표현식이 위치 selectExpr를 사용할 때도 selectExpr("") 따옴표안에 표현식이 위치 select와 함수,컬럼 이름으로 쓰고싶을 때는 select(함수("컬럼 이름"))처럼 사용 select와 함수,col을이용한 컬럼 이름을 명시하고 사용하는 방법은 select(함수(col("컬럼 이름"))) 처럼 사용 2. SQL에서의 조인을 Dataframe Method로 join구현하기 데이터프레임.select.join(조인할 데이터프레임,조인할 표현식,조인 방식).show() SELECT FROM 처럼 조인할 테이블이 있으.. 2021. 2. 26.
[BigData] Spark 예제, Dataframe 특징, 설정 값, SQL 파일 읽어오기 csv, json, parquet 등등 df = spark.read.format("json").option("header","true").load("주소") //option("header","true")는 해당 열의 이름을 표기 df = spark.read.format("csv").option("inferSchema","true").load("주소") df = spark.read.format("parquet").load("주소") option 종류 sep: 구분자 default: , Spark 1.6 방식에서는 delimiter를 사용해야 한다 encoding default: UTF-8 quote: value가 큰 따옴표로 묶인 경우 "를 지정 defualt: " escape: 구분자가 v.. 2021. 2. 17.
[PySpark] Spark 환경 설정 with Anaconda(Jupyter Notebook) Python(Pyspark Standalone mode) on windows 이번 포스트는 windows 10에 jupyter notebook에 pyspark 개발환경을 구축해보겠습니다. 1. java 설치 확인 or java 설치 spark는 scala로 구현되어 jvm 기반으로 동작하기 때문에 java를 설치해야 합니다. Java 8 version이 설치되어 있는 지 확인합니다. 1-1 java 설치 확인 or java 설치 Java가 설치되어 있고, 환경변수가 올바르게 설정되어 있다면, 명령 프롬프트(CMD)를 켜고 java –version 새로운 session 즉, 환경변수 적용된 이후의 새로운 CMD(명령프롬프트)창부터 환경변수는 적용 만약, java가 설치되어 있지 않다면, https://www.oracle.com/java/technologies/javase/javas.. 2021. 2. 17.
728x90