본문 바로가기
728x90

BigData/Apache Airflow18

[Airflow] Prometheus & Grafana에서 확인 할 수 있는 Airflow metrics 정리 Airflow에서는 Statsd라는 컴포넌트를 통해 Airflow의 메트릭을 Prometheus로 보내고, Grafana에서 시각적으로 확인해 볼 수 있습니다.즉 Airflow에서 일어나는 일을 모니터링 할 수 있게 됩니다.Airflow의 Metric에는 어떤 것들이 있는지 공식 홈페이지를 통해 확인 해보겠습니다.그 중에서 유의깊게 봐야 할 metric에 대해서 빨간색으로 진하게(bold)처리 해두었으니, 필터링해서 보시면 될 것 같습니다.1. CountersCounters카운터는 단순히 증가하는 값을 나타내며, 일반적으로 주어진 간격 동안의 이벤트 횟수를 추적합니다.예를 들어, 요청이 서버로 들어오는 횟수나 오류가 발생한 횟수 등을 계산할 수 있습니다.카운터는 보통 리셋되지 않고 지속적으로 증가합니다... 2024. 5. 18.
[Airflow] SLA(Service Layer Agreement) 서비스 수준 계약 정리 Airflow에서는 실패 시 함수를 호출하는 on_failure_callback 외에도 서비스 수준 계약 개념을 적용할 수 있습니다.관련해서 SLA와 어떻게 적용하는 지 확인 해보겠습니다.1. SLA란?서비스 제공자와 고객 간에 합의된 서비스 수준을 정의하는 계약SLA는 서비스의 성능, 가용성, 응답 시간, 처리 시간 등 다양한 측면에서 서비스의 품질을 측정하고 보장하기 위해 사용주요 요소서비스 설명: 제공되는 서비스의 세부 사항을 명확히 설명성능 기준: 서비스의 성능을 평가하기 위한 측정 기준을 설정예를 들어, 시스템의 가용성, 응답 시간, 문제 해결 시간 등이 포함될 수 있음가용성: 서비스가 사용자에게 제공되는 시간의 비율을 정의합니다. 예를 들어, 연간 99.9%의 가용성은 연간 약 8.76시간의 .. 2024. 5. 18.
[Airflow] 하나의 DAGs에서 다른 DAGs 파일 호출하기 (TriggerDagRunOperator, ExternalTaskSensor, SSHOperator) Airflow에서 DAGs를 호출하는 방법은 여러가지가 있습니다. 관련해서 정리 해보겠습니다.1. TriggerDagRunOperatorfrom airflow.operators.trigger_dagrun import TriggerDagRunOperatorfrom airflow.operators.dummy_operator import DummyOperatorfrom dateutil.relativedelta import relativedeltafrom datetime import datetime as dtfrom datetime import timedeltafrom datetime import datetimeimport timeimport pendulumfrom airflow import DAGfrom ut.. 2024. 5. 18.
[Airflow] DAG Parsing, DAG Processor 정리 + import와 parsing error 이슈 정리 Airflow DAG Parsingscheduler에 dag_processor라는것이 포함되어 있고, 이것이 dag를 parsing하는 역할을 해줌 1. 이슈 정리Airflow on k8s 이전을 위해 DAG를 개발계의 k8s에 gitsync를 시켜둔 상황import error가 나와 확인 해보니 version up에 따른 method 명칭 변경따라서 명칭을 변경하거나 사용하지 않은 library는 import문에서 제거아무리 기다려도 변경사항 반영이 안된 채로 계속 import에러가 잔류실제 코드는 gitsync를 통해 동기화 됐고, 컨테이너에 들어가서 확인해봐도 동기화 된 상태2. 원인airflow dag 내부에 운영계에 있는 RDB, Redshift와 connect하는 코드가 있었는데, 개발계에서 .. 2024. 4. 27.
[Airflow] Airflow 암호화 fernet key 정리 Airflow Metastore를 이관하면서 암호화된 정보를 이관될 metastore에 어떻게 적용하는지, 암호화된 값은 어떻게 확인하는지 정리해봤습니다.1. 정의대칭형 암호화에서 사용되는 키Python 암호화 라이브러리인 cryptography 패키지에서 제공하는 대칭키 암호화 방식 중 하나128비트(16바이트) 또는 256비트(32바이트)의 임의의 바이트 시퀀스로 구성됩니다. 이 키를 사용하여 데이터를 암호화하고 복호화할 수 있습니다. Fernet은 블록 암호 기술 중 하나인 AES를 기반으로 합니다.Fernet은 base64 인코딩을 사용하여 키를 인코딩하고 디코딩Fernet은 키를 생성할 때 32바이트(256비트)의 임의의 바이트 시퀀스를 사용합니다. 이 바이트 시퀀스는 base64 인코딩을 통해.. 2024. 4. 27.
[Airflow] Metastore version, RDBMS 종류에 따른 차이 정리 최근에 Airflow Metastore에 있는 데이터 이관을 하면서 Metastore 이관 관점에서 Metastore에 관련된 테이블, 컬럼 정보들을 정리해봤습니다.1. Airflow version별 metastore의 구성 차이2.1.3(PostgreSQL)1) 테이블 수28개 테이블ab_permissionab_permission_viewab_permission_view_roleab_register_userab_userab_user_roleab_view_menualemberic_versionconnectiondagdag_codedag_pickledag_rundag_tagimport_errorjoblogrendered_task_instance_fieldssensor_instanceserialized_da.. 2024. 4. 27.
[Airflow] Trigger Rule을 통해 반드시 실행 시켜야 할 Task 다루기 이번 포스트에는 Daily Batch 중에 비용절감을 위해 수정한 사항에 대해 정리해보겠습니다. 1. 수정이 필요한 이유 Daily Batch 실패 난 건 중에, ML server(GPU 장비 탑재된 EC2)에서 script가 돌아가는 job이 있었습니다. EC2가 켜지는 Task는 성공했지만, script task 단계에서 에러가 났었고, EC2는 stop되지 않았습니다. 물론 후속작업들도 전부 upstream_failed에 의해 failed처리 되었습니다. GPU 장비가 붙은 EC2는 비용이 어마어마하게 많이 나오기 때문에, 몇 시간만 켜져 있더라도 무시 하지 못할 비용이 나오게 됩니다. 따라서 script가 실패하더라도, 반드시 stop되게 DAG를 구성하는 것이 필요했습니다. 2. 기존 코드 기존.. 2024. 2. 26.
[Airflow] Airflow로 ETL 파이프라인 V2 만들기 (Variables + TaskGroup을 활용한 Task Factory 구현) 이번 포스트에는 저번에 작성했었던 각 작업들을 통합하여 만든 DAG인 ETL 파이프라인 구축하기 V1에서 중복된 태스크는 줄이고, 병렬실행을 도입시켰으며, task를 정의한 Variables 변수에 따라 Dynamic하게 갯수와 이름이 변하게 되게 끔 구성하였습니다. 저번에 작성한 포스트를 보고 싶으시다면 아래의 링크를 확인해주세요. https://spidyweb.tistory.com/506 [Airflow] Airflow로 ETL 파이프라인 만들기(python, EMR, glue crawler, Email, Slack, DB반영) 이번 포스트에는 회사에서 수동으로 처리하고 있던 일회성 ETL작업을 Airflow DAG으로 묶어서 파이프라인을 만든 경험에대해서 소개해드리겠습니다. 기존 업무 처리방식과 A.. 2024. 2. 9.
[Airflow] Airflow DAGs 이상감지, 알림받기, 결과전송 (EmailOperator, Slack) 이번 포스트에는 Airflow DAGs이 success 및 failed 또는 Task중에 보내고 싶은 결과가 있는 경우 전송하는 방법에 대해 정리해보겠습니다. 방법으로는 EmailOperator와 Slack을 사용하는 방법으로 크게 2가지가 있습니다. EmailOperator 1. 준비 사항 1) GMAIL 계정 생성 EmailOperator를 사용하기 위해서는 stmp로 설정할 host가 필요합니다. 저는 gmail을 사용하기로 했고 새로운 계정을 하나 만들었습니다. 2) IMAP 켜기 GMAIL → 설정 → 모든 설정 보기 전달 및 POP/IMAP → IMAP 사용 3) 보안 설정 구글 계정 관리 → 보안 → 2단계 인증 앱 비밀번호 클릭 메일, 기기 선택 16자리 비밀번호가 생성 되는데, 보관했다가.. 2023. 8. 30.
728x90