본문 바로가기
728x90

전체 글334

[LINUX] 리눅스 이해(계정과 권한, SUDO, PATH) 알아두면 좋은 TOOL apt-get : 필요한 패키지,프로그램을 설치 할 수 있는 패키지 관리 도구 htop : top을 좀 더 예쁘게 꾸며서 보여줌 nohup : 내 스크립트가 터미널을 끄더라도 계속 실행시키고 싶을 때 &(백그라운드라는 뜻)와 함께 백그라운드로 실행 screen(tmux) : nuhup을 통해 백그라운드로 가버린 프로세스는 다시 볼 수 없지만 Screen을 띄워서 실행하면 해당 세션을 다시 복원할 수 있음. 보안을 위해 linux는 소유자의 권한,그룹의 권한, 소유자가 아닌 사람의 권한을 구분한다. drwxr-xr-x 4 spidyweb spidyweb 4096 2021-03-21 05:13 Desktop drwxr-xr-x 9 spidyweb spidyweb 4096 2021-03.. 2021. 3. 21.
[LINUX] 자주 쓰이는 기본 명령어, 명령어 모음집(cheat sheet) ●ls 지금 현재 어디있는지 (list show라고함) ls -l 좀더 자세한 현재 위치와 설명(권한도 보여줌) ●cd (change directory) 디렉토리로 이동하는 명령어 cd로 이동하는 방법 /로 시작하는 절대 경로명 이는 절대 경로 /부터 시작하여 이동한다. ~로 시작하거나 ~name으로 시작하는 경로명 대분분의 쉘에서 사용자의 홈 디렉토리(~) 또는 name 이라는 사용자의 홈 디렉토리(~name)에서 시작하는 절대 경로로 변환된다. 여기서 name은 사용자의 로그인 아이디이다. /로 시작하지 않은 경로명 경로명이 ./로 시작하면 현재를 기준으로 하는 상대 경로가 된다. 경로명이 ../으로 시작하면 현재 디렉토리를 기준으로 부모(상위) 디렉토리를 기준으로 하는 상대 경로가 된다 cd ~ 사.. 2021. 3. 20.
[AWS] AWS 환경셋팅 & 리눅스 인스턴스 접속 Windows 10 Open SSH설정(CMD,즉 CLI환경에서 SSH동작시키기위함) 1.설정 -> 앱 -> 앱 및 기능의 선택적기능 -> 기능추가 -> OpenSSH서버 설치 openssh가 검색이될텐데 설치를 누르면된다(저는 미리 설치해둬서 검색에 안뜨는것) EC2에 리눅스 인스턴스 만들기 1.aws 계정 로그인한다. 2.EC2 -> 인스턴스->인스턴스 시작 3.AMI선택 (ubuntu 버전) 선택 4.인스턴스 유형 선택(free-tier) 5.인스턴스 세부 정보 구성 6.스토리지 추가 (기본값으로 두고 넘어간다) 7.태그 추가(별명) 8.보안 그룹 구성 TCP 프로토콜로 22번 포트번호를 개방한다.(EC2에 접근하기위한 방법) 2021. 3. 16.
[SQL] NULL 과 NULL처리 함수,연산자 NULL이란 알려지지않은 값(unknown),정해지지 않은 값으로 공백과 0과는 다른 개념. ORACLE NULL처리함수 NVL(컬럼명,지정값) -입력한 컬럼명의 값이 null인 경우 지정값으로 대체 NVL2(컬럼명,지정값1,지정값2) -입력한 컬럼명의 값이 null이 아닌경우 지정값1로 대체, null인 경우 지정값2로 대체 ORACLE및 다른 모든 DBMS NULL처리 함수 COALESCE(expr1,expr2,expr3,…) -expr1이 NULL이 아니면 expr1값을, 그렇지 않으면 COALESCE(expr2,expr3,…)값을 반환. -주어진 인수에서 첫번째로 null이 아닌 값을 반환 ex1) COALESCE(empno,1) empno가 null이면 1 empno가 null이 아니면 empn.. 2021. 3. 4.
[BigData] SQL을 Spark Dataframe API,Method로 변환하기(select,selectExpr,col,Join,Windowfunction,inline view) 1. dataframe Method로 select,selectExpr,expr,col 이용하여 컬럼 출력하기(with 집계함수) expr을 사용할 때는 expr("") 따옴표안에 표현식이 위치 selectExpr를 사용할 때도 selectExpr("") 따옴표안에 표현식이 위치 select와 함수,컬럼 이름으로 쓰고싶을 때는 select(함수("컬럼 이름"))처럼 사용 select와 함수,col을이용한 컬럼 이름을 명시하고 사용하는 방법은 select(함수(col("컬럼 이름"))) 처럼 사용 2. SQL에서의 조인을 Dataframe Method로 join구현하기 데이터프레임.select.join(조인할 데이터프레임,조인할 표현식,조인 방식).show() SELECT FROM 처럼 조인할 테이블이 있으.. 2021. 2. 26.
[BigData] Spark 예제, Dataframe 특징, 설정 값, SQL 파일 읽어오기 csv, json, parquet 등등 df = spark.read.format("json").option("header","true").load("주소") //option("header","true")는 해당 열의 이름을 표기 df = spark.read.format("csv").option("inferSchema","true").load("주소") df = spark.read.format("parquet").load("주소") option 종류 sep: 구분자 default: , Spark 1.6 방식에서는 delimiter를 사용해야 한다 encoding default: UTF-8 quote: value가 큰 따옴표로 묶인 경우 "를 지정 defualt: " escape: 구분자가 v.. 2021. 2. 17.
[PySpark] Spark 환경 설정 with Anaconda(Jupyter Notebook) Python(Pyspark Standalone mode) on windows 이번 포스트는 windows 10에 jupyter notebook에 pyspark 개발환경을 구축해보겠습니다. 1. java 설치 확인 or java 설치 spark는 scala로 구현되어 jvm 기반으로 동작하기 때문에 java를 설치해야 합니다. Java 8 version이 설치되어 있는 지 확인합니다. 1-1 java 설치 확인 or java 설치 Java가 설치되어 있고, 환경변수가 올바르게 설정되어 있다면, 명령 프롬프트(CMD)를 켜고 java –version 새로운 session 즉, 환경변수 적용된 이후의 새로운 CMD(명령프롬프트)창부터 환경변수는 적용 만약, java가 설치되어 있지 않다면, https://www.oracle.com/java/technologies/javase/javas.. 2021. 2. 17.
[BigData] Spark( RDD vs DataFrame vs Dataset) + SparkSQL 출처 : A comparison between RDD, DataFrame and Dataset in Spark from a developer’s point of viewRDDResilient: 분산되어 있는 데이터에 에러가 생겨도 복구할 수 있는 능력Distributed: 클러스터의 여러 노드에 데이터를 분산해서 저장Dataset: 분산된 데이터의 모음SparkContext를 통해 만들어지며 보통 sc=spark.SparkContext를 통해 객체를 생성한다SparkSession을 import해도 SparkContext가 포함되어 있는 내용이라 SparkSession만 import해도 사용가능하긴 하다.ex)spark = SparkSession.builder.appName("이름").master("loc.. 2021. 2. 15.
[Network] IP와 Port번호 포트번호(PortNumber) -포트번호란 호스트 내에서 실행되고 있는 프로세스를 구분짓기 위한 16비트의 논리적 할당 이다. 0~65536개의 갯수를 가진다. -포트번호는 컴퓨터 안에서 프로그램을 찾을 때 사용되는 번호이다. IP주소(internet protocol address) -ip주소는 컴퓨터를 찾을 때 필요한 주소 IP주소와 포트번호의 역할 예를들어 PC의 IP주소가 192.168.10.20 이라고 하면 컴퓨터에서 FTP로 자료를 받을 때 사용하는 IP주소는 자신의 주소인 192.168.10.20이고 채팅을 할 때의 IP주소도 192.168.10.20이다. FTP서버와 채팅 서버가 각각 패킷을 192.168.10.20 주소로 보내려고 하면 서로 혼동이 생기게 된다. 그 IP주소를 사용하는 프로.. 2021. 2. 15.
728x90