본문 바로가기
728x90

Data Pipeline3

[Airflow] Airflow Backfill에 대해서 정리하기 (Feat. catchup) 이번 포스트에는 Airflow Backfill기능에 대해서 집중적으로 정리 해보겠습니다. 1. Backfill 기능이란?한 마디로 한다면 "Airflow에서 이전에 실행되지 않은 작업(태스크)을 자동으로 실행하는 과정"DAG(Directed Acyclic Graph)에서 이전의 실행 날짜나 특정 기간에 대한 작업을 다시 수행, backfill을 실행할 때 시작 날짜와 종료 날짜를 지정하여 특정 기간 동안의 작업을 재실행 start_date 부터 시작하지만 end_date 은 포함하지 않음주로 작업이 실패했거나 실행되지 않은 경우에 유용하게 사용execution_date를 사용해서 Incremental update가 구현되어 있어야 의미가 있음, master성(full refresh는 멱등성이 보장된 방법.. 2025. 3. 25.
[Airflow] Airflow 3.0 version 변경점 정리 Airflow가 2025 3월31일에 공개될 예정인데, 관련해서 어떤 변경점이 있는지 정리해보겠습니다.그 동안 사용자들이 추가 기능을 요구 한 것은 아래와 같았습니다. 정말 사용자 입장에서 다 필요한 것들을 공통적으로 생각하고 있었다고 동의할 수 밖에 없는 항목들 인 것 같습니다.Airflow 3.0 변경점 TASK 실행에 대한 변경 사항 (확실히 대세인 오픈 소스 3대장)SDK  변경사항importing form the airflow module 이 deprecate될 예정 1) Python 3.9 이상 지원Airflow 3.0은 Python 3.9 이상의 버전만을 지원하며, 이는 최신 Python 기능과 보안 업데이트를 활용하기 위함기존 워크플로와 플러그인이 Python 3.9 이상과 호환되는지 확인.. 2025. 1. 17.
데이터 파이프라인(Data Pipeline) 데이터 파이프라인 : 효율을 위한 작업 데이터 파이프라인의 시작은 왜, 어디에서, 어떻게 데이터를 수집할 것인가에서 부터 시작한다. 데이터 파이프라인을 구축하기 위해서는 여러 소프트웨어적인 수동 작업들을 제거해야하며 Data가 각 지점을 순조롭게 흐르도록(flow) 만들어야 한다. Data의 추출(extracting), 변경(transforming), 결합(combining), 검증(validating) 그리고 적재(loading)하는 과정들을 자동화 하는 것이다. 또한 여러 데이터 스트림을 한번에 처리해야 한다. 이 모든 과정은 오늘날 data-driven enterprise에서 필수적이다. 데이터파이프라인은 모든 종류의 스키마의 데이터를 수용해야한다. 입수하고자 하는 파일이 static source든.. 2020. 9. 14.
728x90