본문 바로가기
728x90

분류 전체보기336

[Spark Tuning] Spark의 Partition 개념, spark.sql.shuffle.partitions, coalesce() vs repartition(), partitionBy() 정리 이번 포스트에는 Spark의 Partition 개념, 종류 및 조작관련 팁, 헷갈릴 만한 개념에 대해 포스트 해보겠습니다.Partition이란?Partition은 RDDs나 Dataset를 구성하고 있는 최소 단위 객체이며, 스파크의 성능과 리소스 점유량을 크게 좌우할 수 있는 RDD의 가장 기본적인 개념입니다.데이터 파티셔닝은 데이터를 청크 단위로 여러 클러스터 노드로 분할하는 메커니즘을 의미합니다.클러스터의 물리적 머신에 존재하는 로우의 집합각 Partition은 서로 다른 노드에서 분산 처리됩니다.즉, 1 Core = 1 Task = 1 Partition입니다. Spark에서는 하나의 최소 연산을 Task라고 표현하는데, 이 하나의 Task에서 하나의 Partition이 처리됩니다. 또한, 하나의 .. 2021. 11. 23.
[AWS] EC2 instance type 정리 1. EC2의 Type 정리 type vCPUs Memory(GiB) (EC2 family에 따라 다르기도함) nano 2 0.5 micro 2 1 small 2 2 medium 2 4 large 2 4 xlarge 4 30.5 2xlarge 8 61 4xlarge 16 122 8xlarge 32 244 12xlarge 48 384 16xlarge 64 732 24xlarge 96 768 32xlarge 128 3904 metal 96 768 이외에도 6,9,18,56,112xlarge가 있지만 그나마 자주 쓰이는 것으로 정리 2. family 범용 범용 인스턴스는 균형 있는 컴퓨팅, 메모리 및 네트워킹 리소스를 제공하며, 다양한 여러 워크로드에 사용할 수 있습니다. 이 인스턴스는 웹 서버 및 코드 리포.. 2021. 11. 22.
[Security] 공개키(Public key) vs 개인키(private key), 대칭키 vs 비대칭키 공개키는 통장의 계좌번호와 유사하고 개인키는 비밀번호 PIN과 유사 공개키와 개인키를 이해하려면 대칭키와 비대칭키 부터 알아야합니다. 1. 대칭키 암호화, 복호화 할 때 사용하는 키가 동일한 경우, 1개의 키 사용 어떤 키로 암호화 했다면, 수신자도 같은 키가 있어야 복호화 가능 말 그대로 대칭시켜 봐서 맞을 시 자물쇠가 열리는 개념 2. 비대칭키 암호화 할 때 사용하는 키와 복호화할 때 사용하는 키가 다른 경우 2개의 키를 사용하며, 비밀키(개인키)와 비밀키를 토대로 만든 공개키가 쌍을 이룬 형태 공개키(public key): 사람들에게 공개된 키, 정보를 암호화 할 수 있다. 비밀키(private key): 사용자만 알고 있는 암호를 풀 수 있는 키 3. 대칭키 vs 비대칭키 대칭키 비대칭키 키 관계.. 2021. 11. 22.
[BigData] Apache Airflow 설치 및 실습하기 series (3) Airflow로 spark-submit(pyspark)하기with BashOperator 이번 포스트에는 spark-submit 실습한 파일을 가지고 설치한 airflow로 spark-submit해보도록 하겠습니다. + 헷갈리는 개념인 start_date, execution_date, schedule_interval, data interval에 대한 조작과 이해를 돕는 실습을 하겠습니다. spark-submit을 통해 만든 .py file과 실습내용은 아래의 링크에 있습니다. https://spidyweb.tistory.com/303 [Spark] spark standalone 모드로 pyspark 실습(.py spark submit)+ui확인하기 이번 포스트에서는 spark standalone 모드 즉, yarn을 이용하지 않고 local(단일 노드로) pyspark을 제출하는 .py 파일.. 2021. 11. 19.
[Spark] spark on yarn cluster에 pyspark job submit(스파크 클러스터에 잡 던지고 UI 확인하기) 이번 포스트에는 spark를 yarn을 이용하여 cluster mode로 pyspark job을 제출하고, cluster로 잘 돌았는지 확인해보겠습니다. hadoop cluster가 구성 안되신 분들은 아래의 링크를 참조해주세요. 2021.08.08 - [BigData] - [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 [BigData] 완전 분산 하둡 클러스터(hadoop cluster)구축하기(4개 노드) 1. 4개의 가상 노드 띄우기 이번 포스트에는 하둡 fully-distributed mode 구축을 해보도록 하겠습니다. 하둡 구성 스펙 호스트OS - windows10 home 게스트OS들 - centOS7 Hadoop -.. 2021. 11. 18.
Linux ubuntu 에서 python 기본 interpreter 변경하기 #버전 확인 python -V #경로 확인 which python #선택 옵션 추가 sudo update-alternatives --install /usr/bin/python python /usr/bin/python2.7 1 sudo update-alternatives --install /usr/bin/python python /usr/bin/python3.6 2 #interpreter 선택하기 sudo update-alternatives --config python 2021. 11. 16.
[spark] error 기록, spark write시 format에 따른 column name 형태 spark write csv format -> column에 space가 들어가도 허용O parquet format -> column에 space가 들어가면 에러O spark 문법 중 desc(column)이 있고 column.desc()가 있는데, ubuntu에서 pyspark돌릴 때 desc(column)형태의 메소드가 안먹혀서 column.desc()로 바꾼 케이스가 있음. 2021. 11. 16.
[Spark] spark standalone 모드로 pyspark 실습(.py spark submit)+ui확인하기 이번 포스트에서는 spark standalone 모드 즉, yarn을 이용하지 않고 local(단일 노드로) pyspark을 제출하는 .py 파일을 생성해 스크립트 실행을 시켜 제출해보도록 하겠습니다. 하둡 및 스파크를 설치하지 못하신 분은 아래의 링크를 참고해 주세요. 2021.04.26 - [BigData] - [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Down.. 2021. 11. 8.
[HIVE] (Hive 실습)Hadoop ETL with (HiveQL)HQL파일,HQL파일로 hadoop에 job제출하기 이번 포스트에는 standalone(pseudo distributed hadoop cluster)에 HQL파일을 생성하여 job을 제출하는 실습을 해보겠습니다. 하둡 및 하이브를 설치하지 못하신 분은 아래의 링크를 참조해주세요. 2021.04.26 - [BigData] - [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Downloads – Oracle VM Virtua.. 2021. 11. 8.
728x90