본문 바로가기
728x90

hql3

[Hive] Hive on Hadoop cluster 실습 + yarn ui 확인하기 이번 포스트에는 fully distributed hadoop cluster에 HQL파일을 생성하여 job을 제출하는 실습을 해보겠습니다. 하둡 및 하이브를 설치하지 못하신 분은 아래의 링크를 참조해주세요. 2021.08.08 - [BigData] - [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 이번 포스트에는 하둡 fully-distributed mode 구축을 해보도록 하겠습니다. 하둡 구성 스펙 호스트OS - windows10 home 게스트OS들 - centOS7 Hadoop - 3.1.0 Zookeep.. 2021. 11. 23.
[HIVE] (Hive 실습)Hadoop ETL with (HiveQL)HQL파일,HQL파일로 hadoop에 job제출하기 이번 포스트에는 standalone(pseudo distributed hadoop cluster)에 HQL파일을 생성하여 job을 제출하는 실습을 해보겠습니다. 하둡 및 하이브를 설치하지 못하신 분은 아래의 링크를 참조해주세요. 2021.04.26 - [BigData] - [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Downloads – Oracle VM Virtua.. 2021. 11. 8.
HIVE QL(HQL) VS Pyspark (REGEXP_REPLACE 구문 차이정리) 프로젝트 중 ,HIVEQL -> PySpark 작업중에 HIVEQL속에 REGEXP_REPLACE 구문 및, RLIKE 구문이 있었습니다. 거기에서 발생한 issue를 정리하려고 합니다. 1.REGEXP_REPLACE 이놈이 문제였습니다. HQL에는 REGEXP_REPLACE(컬럼,'\(\\d+\)\.\(\\d+\)\.\(\\d+\)\[-|.]\(\\d+\)',$1)와 같은 구문이 있었고, 처음에는 그대로 복붙하면 spark에서도 먹힐 줄 알았습니다. 그대로 사용해서 실행시켜보니, 오류는 나지 않았지만, 데이터가 0건으로 조회되었습니다. 말그대로 오류는 내지 않지만 REGEXP_REPLACE도 제대로 먹지 않았던 것 입니다. 여러 시도 끝에 SPARK에서는 REGEXP_REPLACE(컬럼,'(\d+)\... 2021. 8. 19.
728x90