[Project] ETL Daily batch project(공공데이터 코로나 API, Python, PySpark, Airflow, AWS) 1. 프로젝트 개요
이번 포스트에는 아주 간단한 ETL을 구현하는 프로젝트를 해보겠습니다. 프로젝트 자체는 필요한 것만 최소한의 시간으로 최소한의 비용으로 구성했으며, 점차 추가기능들을 구현하거나 수정할 부분을 수정하여, sub version을 포스트 하겠습니다. 프로젝트에서 다루는 것 ETL python파일 corona API를 restAPI로 받아오는 법 --수집 python library인 bs4를 이용하여 lxml로 파싱후, list로 변환 --처리 list를 pyspark dataframe으로 변환 --처리 오늘, 전체, 날짜별 dataframe을 단일 csv파일로 저장 --저장 오늘, 전체, 날짜별 dataframe을 기준날짜를 기준으로 partition하여(partitionBy) csv파일로 저장 --저장 da..
2022. 2. 17.
[IT용어](데이터 흐름) 기간계, 정보계, ODS(Operational Data Store), EDW(Enterprise Data Warehouse), Data Mart(DM), OLAP(On line Analysis Process), ETL(Extract Transform Load),ELT(Extract Load Transform)
운영계 시스템 기업 운영에 필요한 업무용 시스템이며, 이 시스템의 사용자는 직원이 될 수도 있고, 외부 고객이 될 수도 있음 예를 들어 전자상거래 사이트에서 물건을 주문했을 경우, 인터넷뱅킹 사이트에서 이체를 진행했을 경우, 내부 인사시스템의 사원 정보를 갱신하는 경우와 같이 프로세스가 모두 운영계 시스템에서 처리 이 시스템에 발생하는 데이터는 대부분 데이터베이스 트랜잭션 단위로 데이터를 처리하고, 저장하며 흔히 OLTP(Online Transaction Processing) 데이터라고 표현 금융권 운영계 운영계시스템을 분류하여 기간계, 계정계, 정보계, 대외계와 같은 용어를 사용합니다. 1. 기간계(Legacy, Existing) 1) 정의 : 고객이 사용하던 기존 시스템(새로운 시스템 도입 기준시점 ..
2021. 5. 15.