본문 바로가기
728x90

Tez2

[Hadoop] 하둡이란? 하둡 에코시스템이란? hadoop, hadoop eco-system 개념 1.Hadoop 이란? -하둡은 분산 데이터 처리의 공통 플랫폼입니다. -하둡을 3가지로 나눈다면 1) 데이터 저장의 분산 파일 시스템(Distributed file system) HDFS 2) 데이터 처리의 분산 데이터 처리(Distributed data processing) MapReduce(MR) 3) 자원 관리의 YARN(hadoop ver 2.0에 발표) -YARN의 역할 1) CPU나 메모리 등의 계산 리소스는 리소스 매니저인 YARN에 의해 관리 2) YARN은 애플리케이션이 사용하는 CPU 코어와 메모리를 '컨테이너라 불리는 단위로 관리) 3) Hadoop에서 분산 애플리케이션을 실행하면 YARN이 클러스터 전체의 부하를 보고 비어 있는 호스트부터 컨테이너를 할당 -MapReduce란 1).. 2021. 7. 12.
[BigData] 데이터 처리, Spark vs Hadoop vs Hive 공통점: 셋 다 bigdata처리를 지원하는 framework,솔루션 이다. 차이점: spark hadoop hive 역할 1.분산형 데이터 컬렉션 상부에서 동작하는 프로세싱 툴(메모리 기반) 1. 분산형 data infrastructure 2. 대량의 데이터 컬렉션을 사용 3.서 버 클러스터 내 복수의 노드들에 분산시키는 역할 4. 맞춤 제작한 하드웨어를 구매하고 유지하는데 들어가는 사용자의 비용 부담을 줄여준다 1.하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. 2.RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하며, 이 데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 .. 2021. 2. 10.
728x90