본문 바로가기
728x90

데이터3

[Python] Boto3 + Airflow로 특정 기간 지난 S3 데이터 삭제하기 업무를 하면서 개인정보 데이터에 대해서 6개월이 지나면 자동으로 파기가 되는 로직을 구현해야되는 일이 있었습니다. 따라서 하루단위 배치로 6개월이 지났는지 검사하고, 지났으면 데이터를 삭제하는 로직을 구현한 것에 대해 정리해보겠습니다. 요구사항, 상세정보 및 코드 사용 라이브러리 : boto3 배치 스케줄링 주기: 매일 00:05 요구사항: 6개월이 지난 개인정보 포함된 데이터는 파기가 되어야 함 해결 방법: s3 uri경로가 s3:bucket/~~/history 혹은 latest로 되어 있고 이후에 stnd_ymd=yyyy-mm-dd 파티션으로 구별 됨 → stnd_ymd 기준 6개월이 지나면 매일매일 검사하여 삭제하는 로직 구현 코드 from airflow import DAG import boto3 .. 2023. 11. 20.
첫 번째 이직, 그리고 데이터 엔지니어 2021년 1월1일 부터 시작된 내 첫 직장 생활이 2023년 5월4일 부로 끝을 맺었다. 약 2년 4개월간의 여정 속에는 3개의 프로젝트가 함께 했었는데, 데이터업계의 컨설턴트로써 cloud migration, DA, 품질 및 솔루션 운영과 같은 업무를 진행했었다. 이전의 si성격의 회사와는 다르게 현재는 데이터엔지니어 직무를 수행하는 회사에 합격을 한 상태고, 내일이 첫 출근이다. 기존에는 너 무슨 일 해? 라고 물어보면, "데이터 엔지니어야" 라고 답하지 못하고 "음.. 데이터 엔지니어도하고 아키텍트도하고 전반적으로 데이터업계 컨설팅..?" 과 같이 두루뭉실하게 대답했었다. 이제는 원하던(경험하고싶었던) 데이터엔지니어로써 업무를 수행할 수 있게 됐으니 자신있게 말할 수 있을 것 같다. 나는 경력직으.. 2023. 5. 7.
JSON(JavaScript Object Notation), BSON(Binary JSON) ●JSON이란 JavaScript Object Notation라는 의미의 축약어로 데이터를 저장하거나 전송할 때 많이 사용되는 경량의 DATA 교환 형식 Javascript에서 객체를 만들 때 사용하는 표현식을 의미한다. JSON 표현식은 사람과 기계 모두 이해하기 쉬우며 용량이 작아서, 최근에는 JSON이 XML을 대체해서 데이터 전송 등에 많이 사용한다. JSON은 데이터 포맷일 뿐이며 어떠한 통신 방법도, 프로그래밍 문법도 아닌 단순히 데이터를 표시하는 표현 방법일 뿐이다. ●JSON 특징 서버와 클라이언트 간의 교류에서 일반적으로 많이 사용된다. 자바스크립트 객체 표기법과 아주 유사하다. 자바스크립트를 이용하여 JSON 형식의 문서를 쉽게 자바스크립트 객체로 변환할 수 있는 이점이 있다. JSON.. 2020. 10. 12.
728x90