본문 바로가기
728x90

전체 글336

[Airflow] docker-compose.yml로 airflow 설치하기 이번 포스트에는 docker-compose.yml를 이용하여 간단하게 airflow를 설치해보겠습니다. airflow 개념과 용어에 대해 공부하고 싶으신 분은 아래의 링크를 참조해주세요. https://spidyweb.tistory.com/295 [BigData] Apache Airflow 설치 및 실습 하기 series (1) Airflow란? DAG란? 안녕하세요 이번 포스트에는 Airflow의 개념에 대해서 알아보고 어떤 역할을 하는지, 그리고 핵심인 DAG파일에 대해서 알아보겠습니다. 1. Apahce Airflow란? 에어비앤비에서 python기반으로 개발한 워크 spidyweb.tistory.com 1. docker 설치 https://spidyweb.tistory.com/277 [Docker.. 2023. 1. 7.
[Python] PyPy3 vs Python3 이번 포스트에는 PyPy3와 Python3를 비교해보고 어떤 상황일 때 사용하면 좋은 지 확인해보겠습니다. 비교 전에 컴파일 언어와 인터프리터 언어의 특징을 확인하겠습니다. 컴파일 언어: 소스 코드를 기계어로 컴파일(Compile time) -> 실행파일 만듦 -> 실행(Run time) 인터프리터 언어: 코드를 한줄씩 읽어 가며 실행 Python3 1) 구현체 python의 시작은 C로 구현되었고, 그 구현체가 CPython인데, CPython은 인터프리터이면서 컴파일러 2) 동작 방식 python3에서는 우리가 작성하는 python코드를 bytecode로 컴파일하고 실행한다. 즉, python코드를 C언어로 바꾸는 것이 아니라, 컴파일 하여 bytecode로 바꾸고 그 다음 인터프리터(가장 머신)가 .. 2023. 1. 6.
[Spark Tuning] PartitionFilters vs PushedFilter 비교, predicate pushdown vs projection pushdown 이번 포스트에서는 spark에서 partitionfilter의 개념과 언제 적용되는지, 그리고 확인하는 방법을 확인하고 PushedFilter와의 차이점,마지막으로 PushedFilter의 종류 predicate과 projection의 차이를 알아보겠습니다. 1. PartitionFilters vs PushedFilters PartitionFilters란 특정 파티션에서만 데이터를 가져오고 관련 없는 파티션은 모두 생략합니다. 데이터 스캔 생략은 성능의 큰 향상을 가져다 줍니다. PushedFilters 보다 선행된다. PartitionFilter기술은 조건에 사용된 컬럼이 파티션되어 있고 스파크가 필터 조건을 충족하는 특정 디렉터리만 스캔할 때 사용됩니다. PushedFilters란 PushedFilt.. 2023. 1. 1.
[AWS] RDS(Relational Database Service) vs AuroraDB (feat. MySQL, PostgreSQL) 1. RDS(Relational Database Service)란? 1) 정의 클라우드에서 배포,설치,패치,백업을 쉽게만드는 관계형 DB를 관리된 SQL DB로 서비스한다.(아마존 클라우드에서 관계형 데이터베이스를 사용할 수 있는 서비스)Aurora, MySQL,PostgreSQL,MariaDB,Microsoft SQL Server 그리고 Oracle DB 엔진을 지원한다. (Aurora가 포함되는 개념) 2) 특징 RDS 구축 형태 기존 데이터베이스 아키텍처를 중심으로 완전히 관리되는 추상화 계층을 제공 RDS 내에서 데이터베이스 플랫폼은 EC2에서 수동으로 수행하는 것처럼 구축 EC2인스턴스는 적절한 Amazon Machine Image (AMI)에서 프로비저닝 되고, EBS(Elastic Block.. 2022. 12. 28.
[Python] 함수의 강점, 함수 return 이란?, 언제 사용할까? print()와의 차이점 왜 쓰는지 알고 쓰는 것과 그냥 쓰는 것의 차이는 굉장히 크다고 생각합니다. 늘상 접하고 있는 함수에 대해서 정리해보겠습니다. 1. 함수의 강점 1) 반복과 재사용에 강하다 기계와 사람의 큰 차이점은 어떤걸까? 같은 일을 반복함에 있어서 속도차이가 엄청나게 나는 부분이 제일 큰 차이가 아닐까 싶습니다. 프로그래밍에는 반복을 해야하는 일들이 존재합니다. 즉, 코드를 재사용할 일이 많다는 뜻입니다. 그런것을 도와주는 것이 반복문 함수 정도 일 것 같습니다. 2) 유지보수에 좋다 함수의 강점은 반복 뿐만이 아닙니다. modularity(모듈성)라 하는 시스템 구성 요소가 분리되고 재결합 될 수있는 정도를 나타내는 단어는 프로그래밍에 있어 중요합니다. 기능을 잘게 쪼개게 되면, 원하는 기능의 수정이 필요할 때에.. 2022. 12. 15.
[Python] Input() vs sys.stdin.readline() 입력 함수 차이 (feat. python version) 이번 포스트에는 사용자 입력을 처리하기 위한 내장 함수에 대해서 비교하여 정리하겠습니다. 1. Python 2.x 1) raw_input() 입력 값을 무조건 문자열로 받음 2) input() 입력으로 들어온 값을 evaluate 해서 그 값에 맞는 자료형으로 초기화(형변환이 자동으로 된다.) 2. Python 3.x 1) input() Python 3.x에서 input()는 Python 2.x 의 raw_input() 역할을 대신하여 입력 값을 문자열로 받음 -> 다른 타입을 넘겨주기 위해선 형변환이 필요 Python 3.x로 넘어오면서 모든 변수가 객체(object)로 처리됨에 따라서 결과 값도 type에서 class로 바뀌게 됨 input() 내장 함수는 parameter로 prompt messag.. 2022. 12. 15.
[Docker] Docker Swarm 이란? Docker Swarm vs K8S 1. Docker Swarm이란 k8s 과 마찬가지로 컨테이너 오케스트레이션(Container Orchestration) 도구 2. docker swarm 등장 배경 도커(Docker)는 단일 호스트 안에서 컨테이너 기반 애플리케이션을 관리할 때 유용한 도구인데, 단일 호스트로 구성된 환경은 확장성(Scalability)과 가용성(Availabilty), 그리고 장애 허용성(Fault Tolerance) 측면에서 많은 한계점을 가진다. 애플리케이션 이용자가 늘어나면서 호스트의 가용 시스템 자원이 바닥나게 되거나, 어떠한 이유로든 호스트가 일시적으로 작동 불능의 상태가 된다면, 아마도 애플리케이션의 서비스가 곧바로 중단되는 상황을 맞이하게 될 것이다. 그런데 여러 대의 호스트에서 컨테이너를 관리하려니, 도.. 2022. 12. 3.
[회고] 2022년을 마무리하며 회고 아직 한달가량 남았지만, 매년 말 쯔음 한 해를 마무리하며 해온 것과 드는 생각들, 내년의 계획 같은 것을 적어보려고 합니다. 작녀에는 회고글을 못적었기 때문에 작년의 기억을 더듬어 정리하는 시간도 갖기로 했습니다. 회고성 글이기 때문에 잘 정리된 글이 아닌 생각나는 대로 두서없이 쓰는 글의 형태로 포스팅 하려고 합니다. 1. 해온 것들 1) 2021년 첫 직장생활을 하며 어떤 방향으로 나아갈지 정하게 된 한 해였던 것 같습니다. 운이 좋게도 첫 프로젝트를 Cloud + Big data를 다룰 수 있는 프로젝트로 투입돼서 정말 다양한 경험을 해볼 수 있었는데, 그래서 데이터엔지니어링 이라는 분야에 더 흥미를 느끼고 확실한 진로를 정할 수 있게 되었습니다. AWS 정말 많은 AWS 온라인 강의, Hands.. 2022. 11. 24.
[Network] SSL(Secure Sockets layer) 란? 사용되는 곳, 작동 원리, 인증과 인증서 유형 1. SSL 암호화 기반의 인터넷 보안 프로토콜 인터넷 통신의 개인정보 보호, 인증, 데이터 무결성을 보장하기 위해 Netscape가 1995년 처음으로 개발 SSL은 TLS의 전신(SSL은 여러 번 개선되어 매번 성능이 개선됐고, 1999년에 SSL은 TLS로 업데이트) 프로토콜이란? 복수의 컴퓨터 사이나 중앙 컴퓨터와 단말기 사이에서 데이터 통신을 원활하게 하기 위해 필요한 통신 규약. 신호 송신의 순서, 데이터의 표현법, 오류(誤謬) 검출법 등을 정함. 통신 규약 TLS란? 인터넷 커뮤니케이션을 위한 개인 정보와 데이터 무결성을 제공하는 보안 프로토콜 2. 사용하는 곳 SSL/TLS를 사용하는 웹사이트의 URL에는 HTTP 대신 HTTPS가 있음 3. SSL 작동원리 SSL은 높은 수준의 개인정보 .. 2022. 11. 6.
728x90