본문 바로가기
728x90

hadoop20

HDFS 노드, EMR cluster 노드, Spark Application (process) 정리 1. HDFS name node -데이터 블럭들에 대한 메타 정보 data node -데이터 블럭을 읽고 쓴다. journal node -블럭들에 대한 이력을 관리한다. 2. EMR cluster EC2 node master node -YARN 역할 -HDFS name node 역할 core node -data node daemon 역할 -task tracker daemon 역할 -YARN nodemanager daemon 역할 -hadoop MR 작업 역할 -spark 실행기 역할 task node -hadoop MR 역할 -spark 실행기 역할 -데이터에 대한 병렬 계산 작업 역할 3. Spark Application (process) Spark Application = driver process .. 2021. 8. 19.
[BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 5. Zookeeper, hadoop 계정 생성 및 이번 포스트에는 Zookeeper, hadoop 계정을 생성 하고 권한 설정 및 SSH 통신 설정을 해보겠습니다. 아직 JAVA 설치 및 환경 설정을 하지 못했다면 아래의 링크를 참고해주세요. https://spidyweb.tistory.com/269 [BigData] Centos-7 fully distributed hadoop cluster 구성하기(하둡 클러스터) 4. JAVA 설치 및 환경 설정 안녕하세요 이번 포스트에는 Java 설치 및 환경 설정을 해보도록 하겠습니다. 아직 SSH 설정 방화벽 및 SELINUX 설정을 완료 못하셨으면 아래의 링크를 참고해주세요. https://spidyweb.tistory.com/268 [BigData spidyweb.tistory.com 하둡 구성 스펙 호스트.. 2021. 8. 11.
[BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 이번 포스트에는 하둡 fully-distributed mode 구축을 해보도록 하겠습니다. 하둡 구성 스펙 호스트OS - windows10 home 게스트OS들 - centOS7 Hadoop - 3.1.0 Zookeeper - 3.4.10 jdk - 1.8.0_191 호스트OS는 공유기(WI-FI) 연결 환경 서버 4대를 활용한 하둡 HA 구성: namenode1: 액티브 네임노드, 저널노드 역할 rmnode1: 스탠바이 네임노드, 리소스 매니저, 저널노드 역할, 데이터 노드 역할 datanode1: 저널노드 역할, 데이터 노드 역할 datanode2: 데이터 노드 역할 총 4개의 노드를 이용하여 HA(고가용성)구성을 한 하둡 클러스터를 구성 해보겠습니다. 1. VirtualBox Host Only Ne.. 2021. 8. 8.
[Hadoop] 하둡이란? 하둡 에코시스템이란? hadoop, hadoop eco-system 개념 1.Hadoop 이란? -하둡은 분산 데이터 처리의 공통 플랫폼입니다. -하둡을 3가지로 나눈다면 1) 데이터 저장의 분산 파일 시스템(Distributed file system) HDFS 2) 데이터 처리의 분산 데이터 처리(Distributed data processing) MapReduce(MR) 3) 자원 관리의 YARN(hadoop ver 2.0에 발표) -YARN의 역할 1) CPU나 메모리 등의 계산 리소스는 리소스 매니저인 YARN에 의해 관리 2) YARN은 애플리케이션이 사용하는 CPU 코어와 메모리를 '컨테이너라 불리는 단위로 관리) 3) Hadoop에서 분산 애플리케이션을 실행하면 YARN이 클러스터 전체의 부하를 보고 비어 있는 호스트부터 컨테이너를 할당 -MapReduce란 1).. 2021. 7. 12.
[Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 1. Hive란? -하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. -RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하며, 이 데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 이용하여 데이터를 조회하는 방법을 제공합니다. *가장 큰 특징으로는 메타스토어라는 것이 존재하는데, 하이브는 기존의 RDB와는 다르게 미리 스키마를 정의하고 그 틀에 맞게 데이터를 입력하는 것이 아닌, 데이터를 저장하고 거기에 스키마를 입히는(메타스토어에 입력하는) 것이 가장 큰 특징입니다. 2. Hive 구성요소 UI 사용자가 쿼리 및 기타 작업을 시스템에 제출하는 사용자 인터페이스 CLI, Beel.. 2021. 7. 12.
[Hadoop] HDFS에 데이터 저장하기(뉴욕택시 데이터,green taxi data) 이번 포스트에는 설치한 하둡에 뉴욕택시 데이터를 저장 해보겠습니다. 혹시 하둡을 설치하지 않으신 분은 아래의 포스트를 참고해주세요~ https://spidyweb.tistory.com/214?category=842040 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 3.ubuntu 에 hadoop(하둡) 다운로드,설치 이번 포스트에는 virtualbox에 하둡을 설치하겠습니다. virtualbox에 ubuntu를 설치하지 못하신 분이나, windows의 powershell로 ssh통신을 할 줄 모르시는 분이면 아래URL의 포스트부터 선행하여 주세요! spidyw spidyweb.tistory.com 1. local로 wget이용하여 데이터 저장하기 htt.. 2021. 7. 4.
[Spark] virtual box linux [ubuntu 18.04]에 스파크 설치,다운로드 5.ubuntu 에 spark(스파크) 다운로드,설치 이번 포스트에는 Spark를 설치해 보겠습니다. vritualbox 설치,ubuntu설치, ssh통신, hadoop 설치가 완료 되지 않으신 분은 아래의 URL을 참고하여 완료해 주세요. 1.virtualbox 설치 및 ubuntu 설치 spidyweb.tistory.com/212?category=842040 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Downloads – Oracle VM VirtualBox Download VirtualBox Here you will find links to Virtua.. 2021. 5. 16.
[Hive] virtual box linux [ubuntu 18.04]에 하이브 설치,다운로드 4.ubuntu 에 Hive(하이브) 다운로드 이번 포스트에는 Hive를 설치해 보겠습니다. vritualbox 설치,ubuntu설치, ssh통신, hadoop 설치가 완료 되지 않으신 분은 아래의 URL을 참고하여 완료해 주세요. 1.virtualbox 설치 및 ubuntu 설치 spidyweb.tistory.com/212?category=842040 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Downloads – Oracle VM VirtualBox Download VirtualBox Here you will find links to Virtual.. 2021. 5. 8.
[Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 3.ubuntu 에 hadoop(하둡) 다운로드,설치 이번 포스트에는 virtualbox에 하둡을 설치하겠습니다. virtualbox에 ubuntu를 설치하지 못하신 분이나, windows의 powershell로 ssh통신을 할 줄 모르시는 분이면 아래URL의 포스트부터 선행하여 주세요! spidyweb.tistory.com/212 vitual box와 ubuntu 설치하기 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Downloads – Oracle VM VirtualBox Download VirtualBox Here you will find links to.. 2021. 5. 2.
728x90