본문 바로가기
728x90

pyspark20

[BigData] SQL을 Spark Dataframe API,Method로 변환하기(select,selectExpr,col,Join,Windowfunction,inline view) 1. dataframe Method로 select,selectExpr,expr,col 이용하여 컬럼 출력하기(with 집계함수) expr을 사용할 때는 expr("") 따옴표안에 표현식이 위치 selectExpr를 사용할 때도 selectExpr("") 따옴표안에 표현식이 위치 select와 함수,컬럼 이름으로 쓰고싶을 때는 select(함수("컬럼 이름"))처럼 사용 select와 함수,col을이용한 컬럼 이름을 명시하고 사용하는 방법은 select(함수(col("컬럼 이름"))) 처럼 사용 2. SQL에서의 조인을 Dataframe Method로 join구현하기 데이터프레임.select.join(조인할 데이터프레임,조인할 표현식,조인 방식).show() SELECT FROM 처럼 조인할 테이블이 있으.. 2021. 2. 26.
[PySpark] Spark 환경 설정 with Anaconda(Jupyter Notebook) Python(Pyspark Standalone mode) on windows 이번 포스트는 windows 10에 jupyter notebook에 pyspark 개발환경을 구축해보겠습니다. 1. java 설치 확인 or java 설치 spark는 scala로 구현되어 jvm 기반으로 동작하기 때문에 java를 설치해야 합니다. Java 8 version이 설치되어 있는 지 확인합니다. 1-1 java 설치 확인 or java 설치 Java가 설치되어 있고, 환경변수가 올바르게 설정되어 있다면, 명령 프롬프트(CMD)를 켜고 java –version 새로운 session 즉, 환경변수 적용된 이후의 새로운 CMD(명령프롬프트)창부터 환경변수는 적용 만약, java가 설치되어 있지 않다면, https://www.oracle.com/java/technologies/javase/javas.. 2021. 2. 17.
728x90