본문 바로가기
728x90

hadoop20

[Data Engineering] CCA Spark and Hadoop Developer Exam(CCA175) 정보와 준비 자료 1. 시험 소개 1) 자격증 분류 cloudera 주관 CDH(Cloudera Distribution Including Apache Hadoop) , HDP(Hortonworks Data Platform) 자격증 중, CCA(Cloudera Certified Association)에 해당하는 자격증 2) 자격증 소개 Apache Spark와 Cloudera Enterprise tool을 이용한 데이터 수집, 가공 ,처리를 다루는 자격증 문항 수 Cloudera Enterprise cluster에서 수행하는 8 ~ 12개의 수행능력 기반의(hands-on) 과제 시간 제한 120분 합격 점수 70% 이상 문제의 언어형식 영어 시험 비용 US$295 Spark 코딩 시 사용 가능 프로그래밍 언어 (결과만 중.. 2023. 3. 7.
[AWS] s3 vs s3a vs s3n 차이 정리 s3 vs s3a vs s3n s3 s3a s3n 공통점 ○ 하둡의 저장소가 hdfs가 아닌, AWS s3일 때 클라이언트를 제공하는 파일시스템 종류(s3에 읽기,쓰기를 가능하게 해주는 어댑터) ○ AWS s3에 저장하게 해주는 하둡의 각각 다른 파일시스템 URI s3:// s3a:// s3n:// 파일 크기 제한 5GB보다 클 수 있지만 다른 S3 도구와 상호 운용할 수 없음 큰 파일(5GB 제한 없음), 고성능 작업 등을 지원 가능 단일 파일 크기에 대한 5GB 제한있음 특징 ○ S3가 지원하는 하둡 호환 블록 기반 파일 시스템 ○ 파일이 포함된 기존 버킷을 사용하거나 다른 파일을 동일한 버킷에 쓰지 않아야 함 ○ HDFS에 있는 것처럼 블록으로 저장 ○ 파일 시스템 전용 버킷이 필요 ○ 읽기 성능은.. 2023. 2. 23.
[Hive] 분산 처리에서의 Skew 와 Distinct count의 성능 과의 관계 이번 포스트에는 Skew와 Skew의 개념에 대해서는 아래의 링크를 참조해주세요. 2021.10.05 - [BigData/Hive] - [Hive] Hive의 성능(테이블) (3) bucketing(버켓팅),skew(스큐), serde(서데), join type(맵 조인, 셔플 조인, 정렬-병합 조인)정리 [Hive] Hive의 성능(테이블) (3) bucketing(버켓팅),skew(스큐), serde(서데), join type(맵 조인, 셔플 조인, 정 이번 포스트에는 이전 포스트에서 전부 다루지는 못했던, Hive의 성능에 관한 것들을 위주로 다루어 보겠습니다. *Hive의 개념을 모르신다면 아래를 참조해주세요 2021.07.12 - [BigData] - [Hive] Hive란?(1) spidywe.. 2023. 2. 12.
[EMR,hadoop] EMR instance의 실제 CPU, Core, vCore, memory 확인 및 yarn과 비교 이번 포스트에는 emr을 띄워 node의 cpu,Core,vCore,memory 확인을 하고 이게 yarn에는 어떻게 적용되는지 확인하겠습니다. EMR 구성 core 2, vCore 4, 16 GiB m5.xlarge instance로 master,core,task node구성 EMR master node에 접속하여 실제 CPU,Core,vCore, memory 확인하기 emr master node에 ssh 접속이 궁금하신분은 아래의 링크를 참조 https://spidyweb.tistory.com/313?category=771995 [AWS] EMR-6.2.0 config with ssh tunneling(yarn UI 확인) 이번 포스트에는 EMR-6.2.0 버전을 Hadoop, Hive, Zookee.. 2021. 12. 17.
[Hive] Hive on Hadoop cluster 실습 + yarn ui 확인하기 이번 포스트에는 fully distributed hadoop cluster에 HQL파일을 생성하여 job을 제출하는 실습을 해보겠습니다. 하둡 및 하이브를 설치하지 못하신 분은 아래의 링크를 참조해주세요. 2021.08.08 - [BigData] - [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 이번 포스트에는 하둡 fully-distributed mode 구축을 해보도록 하겠습니다. 하둡 구성 스펙 호스트OS - windows10 home 게스트OS들 - centOS7 Hadoop - 3.1.0 Zookeep.. 2021. 11. 23.
[AWS] EMR-6.2.0 config with ssh tunneling(yarn UI 확인) 이번 포스트에는 EMR-6.2.0 버전을 Hadoop, Hive, Zookeeper, livy,Spark JupyterHub와 JupyterEnterpirseGateway를 포함하여 띄우겠습니다. 1. Software Configuration HA 구성을 하시려면 use multiple mastger nodes 란에 check합니다(이번 포스트에는 HA구성 없음) AWS Glue Data Catalog Setting에는 Hive table과 Spark table의 metadata를 Glue로 대신하여서 연동할 것인지에 대해 물어보는 옵션인데, Glue에 작업해 둔 것이 있어서 체크.(없으신 분들은 체크 해제) JupyterEnterpriseGateway는 EMR과 연동할 Notebook에 필요 edit .. 2021. 11. 23.
[Spark] spark standalone 모드로 pyspark 실습(.py spark submit)+ui확인하기 이번 포스트에서는 spark standalone 모드 즉, yarn을 이용하지 않고 local(단일 노드로) pyspark을 제출하는 .py 파일을 생성해 스크립트 실행을 시켜 제출해보도록 하겠습니다. 하둡 및 스파크를 설치하지 못하신 분은 아래의 링크를 참고해 주세요. 2021.04.26 - [BigData] - [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Down.. 2021. 11. 8.
local spark job 제출 시 msvcp100dll가 없다 or ExitCodeException exitCode=-1073741515: 에러 위와 같은 에러에서 체크해봐야 될점. 1. spark-3.1.2/bin 안에 winutils가 있는가 2. c:\Windows\System32에 hadoop.dll 파일을 넣었는가 3. Latest supported Visual C++ Redistributable downloads | Microsoft Docs Latest supported Visual C++ Redistributable downloads This article lists the download links for the latest versions of Visual C++ Redistributable packages. docs.microsoft.com 위의 URL에서 Visual Studio 2010 (VC++ 10.0) SP1 (no .. 2021. 11. 8.
[Hive] Hive의 성능(테이블) (3) bucketing(버켓팅),skew(스큐), serde(서데), join type(맵 조인, 셔플 조인, 정렬-병합 조인)정리 이번 포스트에는 이전 포스트에서 전부 다루지는 못했던, Hive의 성능에 관한 것들을 위주로 다루어 보겠습니다. *Hive의 개념을 모르신다면 아래를 참조해주세요 2021.07.12 - [BigData] - [Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 [Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 1. Hive란? -하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. -RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 spidyweb.tistory.com *Hive의 메타스토어, Partition에 대해서 모르신다면 아래를 참조해주세요. 2021.06.27 - [BigData] - [Hive.. 2021. 10. 5.
728x90