본문 바로가기

728x90

overwrite2

[Spark] spark dataframe -> RDB로 적재하기 오랜만에 글을 씁니다. 이직하고 나서 적응하느라 글쓸 기회가 없었는데, 그동안 어떤 공부를 해야될지 그리고 어떤 글부터 쓸지 순서를 정하느라 뜸했었습니다. 우선은 일을하면서 생긴 이슈와 겪은 업무들 위주로 정리하려고 합니다. 1. 배경 API 서빙을 위해 parquet파일을 RDB로 적재시켜야 했고, 실시간 API서빙이 가능했어야 하는 상황이였습니다. 따라서 spark을 이용하여 truncate없이 RDB로 적재시켜야 했습니다. 1) test db, table 생성 create table if not exists sparktordb.rdbtable( id int(10),rdbtable name varchar(30), create_dt timestamp, update_dt timestamp, PRIMARY.. 2023. 7. 10.

[Spark] spark standalone 모드로 pyspark 실습(.py spark submit)+ui확인하기 이번 포스트에서는 spark standalone 모드 즉, yarn을 이용하지 않고 local(단일 노드로) pyspark을 제출하는 .py 파일을 생성해 스크립트 실행을 시켜 제출해보도록 하겠습니다. 하둡 및 스파크를 설치하지 못하신 분은 아래의 링크를 참고해 주세요. 2021.04.26 - [BigData] - [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Down.. 2021. 11. 8.

이전 1 다음

728x90

티스토리툴바