본문 바로가기
728x90

분류 전체보기348

[Kafka] Kafka와 Debezium 그리고 CDC구현 정리 이번 포스트에는 kafka와 Debezium 그리고 CDC구현에 대해서 정리해보겠습니다.1. Debezium이란?database에서 발생하는 변경사항을 추적할 수 있는 일종의 Apache Kafka Connect의 source connector성공적으로 commit이 발생한 데이터에 대해서만 변경사항이 전파되기 때문에 실패한 트랜잭션은 고려할 필요가 없음Debezium은 변경사항을 디스크에 저장하기 때문에 데이터의 변경사항을 전달받아야 하는 애플리케이션이 다운되더라도 문제가 없음Debezium은 애플리케이션이 여러 DBMS와 호환이 될 수 있도록 middleware 역할을 함 Kafka와 Kafka Connect를 활용함으로써 durability, reliability, fault tolerance을 보.. 2025. 6. 15.
[Airflow] Airflow 3.0 Feature, 변경 사항 및 UI 한번에 정리하기 이번 포스트에는 Airflow 3.0에서 변경 되거나 도입된 다양한 Feature에 대해서 정리해보고, 이전에 docker compose를 통해 설치해본 Airflow 3.0 UI를 직접 확인해보면서 정리해보겠습니다.Airflow 3.0 설치는 아래 링크를 참조해주세요.https://spidyweb.tistory.com/591 [Airflow] Airflow 3.0 version 탐구 1) docker로 설치 해보기이번에 Airflow 3.0 version이 release됐는데, 관련해서 docker로 한번 설치해보고, 변경 사항들을 직접 확인해보겠습니다. 1. AWS에 EC2 생성서버 스펙- 이미지: Amazon linux2- Instance type: c5n.large(2Vcores, 5.3GB Me.. 2025. 5. 27.
[Kafka] 실시간 데이터(스트리밍) 처리 데이터 파이프라인 설계, tool 비교 정리 3) 이상 데이터 탐지,백업,모니터링,분석, 최종 파이프라인 이번 포스트에는 프로듀서, 브로커, 컨슈머를 제외한 나머지들 이상 데이터를 탐지할 때, 백업 방법, 모니터링 과 분석용 툴들을 정리해보고 최종 파이프라인을 그려보고 운영 단계에서 효율적이라고 생각하는 최종 파이프라인을 구성해보겠습니다. 1편(broker 비교, kafka vs kinesis)https://spidyweb.tistory.com/5992편(consumer 비교, flink, spark streaming, kafka streaming, logstash, kinesis firehose)https://spidyweb.tistory.com/6003편(이상 데이터 탐지, 백업, 모니터링, 분석, 파이프라인 및 최종)https://spidyweb.tistory.com/6011. 이상 데이터 탐지굳이 파.. 2025. 5. 7.
[Kafka] 실시간 데이터(스트리밍) 처리 데이터 파이프라인 설계, tool 비교 정리 2) consumer, flink와 spark streaming, logstash, kafka streaming, kinesis firehose 비교 이번 포스트에는 카프카 혹은 키네시스에 붙이는 consumer들을 장단점을 비교해보고 use case를 정리해보도록 하겠습니다.각 consumer의 장단점 위주로 정리하고, 자세한 내용은 다른 포스트에서 자세히 다루겠습니다. 1편(broker 비교, kafka vs kinesis)https://spidyweb.tistory.com/5992편(consumer 비교, flink, spark streaming, kafka streaming, logstash, kinesis firehose)https://spidyweb.tistory.com/6003편(이상 데이터 탐지, 백업, 모니터링, 분석, 파이프라인 및 최종)https://spidyweb.tistory.com/6011. 각 consumer들 비교1) 주요.. 2025. 5. 7.
[Kafka] 실시간 데이터(스트리밍) 처리 데이터 파이프라인 설계, tool 비교 정리 1) broker 역할 비교, Kafka와 kinesis의 비교 이 시리즈를 포스트하는 이유도 사실 면접에서 받은 질문으로 부터 시작됐습니다. 제가 스트리밍 플랫폼에 대한 지식도 많지 않을 뿐더러 이번 기회에 카프카를 비롯한 스트리밍 플랫폼 학습을 제대로 하고자 게시를 하게 됐습니다. 카프카의 기본적인 개념이나 확장은 다른 포스트에서 자세히 다뤄보고, 철저히 특징과 장단점위주로 다른 제품군과 비교를 하여 가장 효율적인 스트리밍 파이프라인은 어떤 형태 일지를 구상하며 정리해보도록 하겠습니다. 1편(broker 비교, kafka vs kinesis)https://spidyweb.tistory.com/5992편(consumer 비교, flink, spark streaming, kafka streaming, logstash, kinesis firehose)https://sp.. 2025. 5. 7.
[BigData] 데이터 정합성 체크, 데이터 품질 보장 (GreatExpectations) 면접을 보러다니면서 뭐를 더 학습 해야될지 알게 돼서, 목표가 있어서 다행이라는 생각이 듭니다.Great Expectation 들어 본 적 있는데, 막상 적용해보거나 실무에서 얘기가 나온적이 없어서 제대로 학습해보지 못했었습니다. 이번 기회에 관련해서 간단히 정리해보고, 비슷한 제품이 있는지 확인 후에 비교해보겠습니다. 1. 데이터 정합성이란? 그리고 왜 필요한지?데이터가 일관성 있고, 정확하며, 신뢰할 수 있는 상태로 유지되는 것을 의미. 다시 말해, 데이터가 의도한 대로 잘 구성되어 있고, 오류 없이 유지되는지 2021.01.08 - [DataBase] - [DataBase] 무결성(Integrity)과 정합성(Consistency) [DataBase] 무결성(Integrity)과 정합성(Consis.. 2025. 5. 6.
[BigData] 파일 포멧과 압축 포멧 선택 기준 정리 (parquet, Avro, gzip,snappy,ZSTD) 데이터 엔지니어 기술 면접에서 깊게는 질문하지 않았지만, 심심찮게 나오는 "정보계 운영 및 데이터 파이프라인을 구축하시면서 어떤 파일 포멧을 사용하셨고, 어떤 압축포멧을 사용하셨나요?" 에 대한 답변을 정리할겸 포멧에 대한 장단점과 사용 이유에 대해서 정리해보려고 합니다. 이전에 비교 정리해둔 파일 포멧에 대한 글은 아래의 링크를 참조해주세요.https://spidyweb.tistory.com/567https://spidyweb.tistory.com/4611. Parquet와 Avro 어떨 때, 왜 사용하나요?보통 Parquet는 Spark와 Avro는 Kafka와 같은 Streaming platform에 잘 어울린다고 알려져 있습니다.그 이유를 정리해보자면 각 파일의 특징과 관련이 있습니다.1) Par.. 2025. 5. 5.
[Spark] AWS EMR vs Glue ETL 비교 정리하기 (성능, 비용, 특징, 실행 방법,...) spark를 써봤다고 면접에서 어필을 할 때 나오는 단골 질문 중 하나인 어떤 제품을 통해 Spark를 실행 시켰으며 어떤 장점 때문에(왜) 해당 제품을 선택했나요? 다른 제품을 고려하지 않은 이유는? 에 대해 정리해보겠습니다.(사실 제 경우에는 Glue ETL을 많이 사용하지 않았기에 정확하게 비교해 볼만한 기회가 없었습니다.)1. AWS EMR이란EMR은 Spark 를 포함한 Hadoop Ecosystem이 탑재된 하둡 클러스터입니다. 따라서 Hive Job 및 다양한 작업을 실행할 수 있습니다.EMR(Elastic Map Reduce)는 크게 3가지로 나뉩니다.EMR on EC2EMR ServerlessEMR on EKS이번 포스트에는 EMR on EC2와 EMR Serverless에 대해 간단하게.. 2025. 5. 4.
[실업과 다음 목표] 실업 5개월 차에 드는 생각과 다음 단계 (실업 급여, 워킹홀리데이, 취업, 과정을 즐기는 법) 오랜만에 드는 생각을 정리할 겸 하나의 이정표를 만들고 가려고 합니다.원체 많은 생각이 드는데, 나름 정리도 할 겸 목록으로 구조화 시켜서 얘기를 풀어보려고 합니다. 현 상황과 드는 생각들취업 준비워킹 홀리데이(경력 단절과 한국 사회의 인식)실업 급여과정을 즐기는 법(생각이 너무 많다)다음 목표1. 현 상황과 드는 생각들이전 직장으로부터 경영난에 의한 구조조정 대상에 포함되고 난 이후로 벌써 5개월이 지났습니다.처음 1~2달은 원하던 여행도 많이 다니며, 여러 친구들과 약속을 잡고 하고 싶었던 모든 것들을 해 나갔습니다.스키도 타러 가고, 해외여행과 독서를 했고, 부족했던 기술 공부들도 하면서 시간을 보내고 있었습니다. 넘어진김에 오래 넘어져 있자는 생각으로 실업급여도 받는 입장이다보니, 급할게 없었다고.. 2025. 4. 26.
728x90