본문 바로가기
728x90

BigData104

[BigData] Apache Airflow 설치 및 실습하기 series (2) Airflow 2.1 ubuntu 20.04에 설치하기 안녕하세요 이번 포스트에는 Airflow만 독단적으로 설치해보겠습니다. 다음포스트에는 DAG파일을 집중분석하여 실습해보도록 하겠습니다. 준비사항 우분투 20.04 LTS 서버와 충분한 디스크 공간 sudo 와 root접근 권한이 있는 계정 Python:3.6,3.7,3.8 버전(3.9는 지원안한다) PostgreSQL(9.6,10,11,12,13), MySQL(5.7,8), SQLite(3.15.0+) *우리는 Apache Airflow에 MySQL 5.7버전을 사용할 것입니다. 혹시 ubuntu가 깔려있지 않으시다면 아래의 글을 참고해주세요. 2021.04.26 - [BigData] - [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbo.. 2021. 10. 17.
[BigData] 완전 분산 하둡 클러스터(hadoop cluster)(4개 노드) 에 "Hive" 설치 및 실습 하기 저번 포스트까지는 하둡 클러스터를 구성해보았습니다. 이번 포스트에는 구성된 하둡 클러스터에 Hive를 설치해보겠습니다. 아직 hadoop cluster 구축이 안되신 분은 아래의 링크를 참고해주세요. https://spidyweb.tistory.com/266 [BigData] Centos-7 fully distributed hadoop cluster 구성하기(하둡 클러스터) 1. 4개의 가상 노드 띄우기 이번 포스트에는 하둡 fully-distributed mode 구축을 해보도록 하겠습니다. 하둡 구성 스펙 호스트OS - windows10 home 게스트OS들 - centOS7 Hadoop - 3.1.0 Zookeeper - 3.4.10 jdk - 1.8.0_191 호스트OS는 공.. spidyweb... 2021. 10. 11.
[Hive] Hive의 성능(테이블) (3) bucketing(버켓팅),skew(스큐), serde(서데), join type(맵 조인, 셔플 조인, 정렬-병합 조인)정리 이번 포스트에는 이전 포스트에서 전부 다루지는 못했던, Hive의 성능에 관한 것들을 위주로 다루어 보겠습니다. *Hive의 개념을 모르신다면 아래를 참조해주세요 2021.07.12 - [BigData] - [Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 [Hive] Hive란?(1) 개념, 구성요소, 등장배경, 버전 1. Hive란? -하이브는 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다. -RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 spidyweb.tistory.com *Hive의 메타스토어, Partition에 대해서 모르신다면 아래를 참조해주세요. 2021.06.27 - [BigData] - [Hive.. 2021. 10. 5.
[Spark] Spark partition pruning 개념, 확인 방법(실행 계획) 1.Partition Prunning 이란? prunning이란 '가지치기' 라는 뜻으로 데이터 시스템에서는 얻고자 하는 데이터를 가지고 있지 않은 파일은 스킵하고 얻고자 하는 파일만 스캔하는 최적화 기법 RDBMS의 Partition prunning과 개념적으로 동일 Spark가 HDFS나 S3와 같은 저장소에 디렉토리와 파일을 읽을 때 지정된 파티션의 파일만 읽을 수 있도록 성능 최적화를 가능하게 함 파일을 파티션구조로 만드는 것이 선행되어야 함 2. Static Partition Prunning 아래의 사진과 같이 모든 데이터를 Scan하여 filter하는 것이 아닌, 특정 원하는 데이터만 Filter 후 데이터를 scan하는 것이 pushdown filter 혹은 predicate pushdown.. 2021. 9. 14.
[BigData] 헷갈릴 만한 용어 정리 HDFS 노드, EMR cluster 노드, Spark Application (process) 정리 1. HDFS구분name nodedata nodejournal node설명파일 시스템의 메타데이터(파일명, 디렉터리 구조, 블록 위치 등)를 관리실제 데이터는 보관하지 않고, 어떤 데이터 블록이 어느 DataNode에 저장되어 있는지 추적실제 데이터를 저장하고 관리NameNode의 지시에 따라 데이터를 저장하거나 삭제하고, 주기적으로 상태를 NameNode에 보고고가용성(HA) 환경에서 NameNode 간 메타데이터 변경 사항을 기록Active NameNode가 장애 발생 시 Standby NameNode가 JournalNode의 로그를 통해 복구특징NameNode의 부하를 줄이고 장애 발생 시 복구 시간을 단축NameNode의 백업으로 작동하지만, NameNode와 1:1로 동작하지 않음다수의 Data.. 2021. 8. 19.
[Hive,Spark] Hive, Spark의 Date Functions 정리, oracle,mysql에서 쓰일 수 있는 functions 언급 1.자주 쓰이는 Hive,Spark Date Functions 정리 1. current_date() 현재의 날짜를 반환 (oracle은 current_date) 2. current_timestamp() 현재의 시각을 반환(밀리초까지) (oracle은 current_timestamp, current_date,current_timestamp가 oracle에서는 동일하다.) 3. unix_timestamp() 현재의 시각을 unix시간으로 반환 unix_timestamp() 는 unix_timestamp(current_timestamp,'yyyy-MM-dd HH:mm:ss')와 같다. 4. unix_timestamp(str date) 입력한 시각,날짜를 unix시간으로 반환 yyyy-MM-dd HH:mm:ss.. 2021. 8. 19.
HIVE QL(HQL) VS Pyspark (REGEXP_REPLACE 구문 차이정리) 프로젝트 중 ,HIVEQL -> PySpark 작업중에 HIVEQL속에 REGEXP_REPLACE 구문 및, RLIKE 구문이 있었습니다. 거기에서 발생한 issue를 정리하려고 합니다. 1.REGEXP_REPLACE 이놈이 문제였습니다. HQL에는 REGEXP_REPLACE(컬럼,'\(\\d+\)\.\(\\d+\)\.\(\\d+\)\[-|.]\(\\d+\)',$1)와 같은 구문이 있었고, 처음에는 그대로 복붙하면 spark에서도 먹힐 줄 알았습니다. 그대로 사용해서 실행시켜보니, 오류는 나지 않았지만, 데이터가 0건으로 조회되었습니다. 말그대로 오류는 내지 않지만 REGEXP_REPLACE도 제대로 먹지 않았던 것 입니다. 여러 시도 끝에 SPARK에서는 REGEXP_REPLACE(컬럼,'(\d+)\... 2021. 8. 19.
[BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 7. 하둡 설치, 배포, 환경설정, 실행하기 이번 포스트에는 hadoop 설치, 배포, 환경설정, 실행하기를 해보겠습니다. 아직 zookeeper 설치,환경설정,실행을 완료해보지 못했다면 아래의 링크를 참고해주세요. https://spidyweb.tistory.com/271 [BigData] Centos-7 fully distributed hadoop cluster 구성하기(하둡 클러스터) 6. Zookeeper 설치, 환경설정, 실행 이번 포스트에는 zookeeper 를 설치하고, 환경설정하여 실행 해보겠습니다. 아직 zookeeper 및 hadoop 계정 생성과 권한 설정을 완료하지 못했다면 아래의 링크를 참고해주세요. https://spidyweb.tistory.com/27 spidyweb.tistory.com 하둡 구성 스펙 호스트OS - .. 2021. 8. 12.
[BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 6. Zookeeper 설치, 환경설정, 실행 이번 포스트에는 zookeeper 를 설치하고, 환경설정하여 실행 해보겠습니다. 아직 zookeeper 및 hadoop 계정 생성과 권한 설정을 완료하지 못했다면 아래의 링크를 참고해주세요. https://spidyweb.tistory.com/270 [BigData] Centos-7 fully distributed hadoop cluster 구성하기(하둡 클러스터) 5. Zookeeper, hadoop 계정 생성 및 이번 포스트에는 Zookeeper, hadoop 계정을 생성 하고 권한 설정 및 SSH 통신 설정을 해보겠습니다. 아직 JAVA 설치 및 환경 설정을 하지 못했다면 아래의 링크를 참고해주세요. https://spidyweb.tistory.com/269 spidyweb.tistory.com 하.. 2021. 8. 11.
728x90