본문 바로가기
728x90

전체 글345

[Kafka] 실시간 데이터(스트리밍) 처리 데이터 파이프라인 설계, tool 비교 정리 3) 이상 데이터 탐지,백업,모니터링,분석, 최종 파이프라인 이번 포스트에는 프로듀서, 브로커, 컨슈머를 제외한 나머지들 이상 데이터를 탐지할 때, 백업 방법, 모니터링 과 분석용 툴들을 정리해보고 최종 파이프라인을 그려보고 운영 단계에서 효율적이라고 생각하는 최종 파이프라인을 구성해보겠습니다. 1편(broker 비교, kafka vs kinesis)https://spidyweb.tistory.com/5992편(consumer 비교, flink, spark streaming, kafka streaming, logstash, kinesis firehose)https://spidyweb.tistory.com/6003편(이상 데이터 탐지, 백업, 모니터링, 분석, 파이프라인 및 최종)https://spidyweb.tistory.com/6011. 이상 데이터 탐지굳이 파.. 2025. 5. 7.
[Kafka] 실시간 데이터(스트리밍) 처리 데이터 파이프라인 설계, tool 비교 정리 2) consumer, flink와 spark streaming, logstash, kafka streaming, kinesis firehose 비교 이번 포스트에는 카프카 혹은 키네시스에 붙이는 consumer들을 장단점을 비교해보고 use case를 정리해보도록 하겠습니다.각 consumer의 장단점 위주로 정리하고, 자세한 내용은 다른 포스트에서 자세히 다루겠습니다. 1편(broker 비교, kafka vs kinesis)https://spidyweb.tistory.com/5992편(consumer 비교, flink, spark streaming, kafka streaming, logstash, kinesis firehose)https://spidyweb.tistory.com/6003편(이상 데이터 탐지, 백업, 모니터링, 분석, 파이프라인 및 최종)https://spidyweb.tistory.com/6011. 각 consumer들 비교1) 주요.. 2025. 5. 7.
[Kafka] 실시간 데이터(스트리밍) 처리 데이터 파이프라인 설계, tool 비교 정리 1) broker 역할 비교, Kafka와 kinesis의 비교 이 시리즈를 포스트하는 이유도 사실 면접에서 받은 질문으로 부터 시작됐습니다. 제가 스트리밍 플랫폼에 대한 지식도 많지 않을 뿐더러 이번 기회에 카프카를 비롯한 스트리밍 플랫폼 학습을 제대로 하고자 게시를 하게 됐습니다. 카프카의 기본적인 개념이나 확장은 다른 포스트에서 자세히 다뤄보고, 철저히 특징과 장단점위주로 다른 제품군과 비교를 하여 가장 효율적인 스트리밍 파이프라인은 어떤 형태 일지를 구상하며 정리해보도록 하겠습니다. 1편(broker 비교, kafka vs kinesis)https://spidyweb.tistory.com/5992편(consumer 비교, flink, spark streaming, kafka streaming, logstash, kinesis firehose)https://sp.. 2025. 5. 7.
[BigData] 데이터 정합성 체크, 데이터 품질 보장 (GreatExpectations) 면접을 보러다니면서 뭐를 더 학습 해야될지 알게 돼서, 목표가 있어서 다행이라는 생각이 듭니다.Great Expectation 들어 본 적 있는데, 막상 적용해보거나 실무에서 얘기가 나온적이 없어서 제대로 학습해보지 못했었습니다. 이번 기회에 관련해서 간단히 정리해보고, 비슷한 제품이 있는지 확인 후에 비교해보겠습니다. 1. 데이터 정합성이란? 그리고 왜 필요한지?데이터가 일관성 있고, 정확하며, 신뢰할 수 있는 상태로 유지되는 것을 의미. 다시 말해, 데이터가 의도한 대로 잘 구성되어 있고, 오류 없이 유지되는지 2021.01.08 - [DataBase] - [DataBase] 무결성(Integrity)과 정합성(Consistency) [DataBase] 무결성(Integrity)과 정합성(Consis.. 2025. 5. 6.
[BigData] 파일 포멧과 압축 포멧 선택 기준 정리 (parquet, Avro, gzip,snappy,ZSTD) 데이터 엔지니어 기술 면접에서 깊게는 질문하지 않았지만, 심심찮게 나오는 "정보계 운영 및 데이터 파이프라인을 구축하시면서 어떤 파일 포멧을 사용하셨고, 어떤 압축포멧을 사용하셨나요?" 에 대한 답변을 정리할겸 포멧에 대한 장단점과 사용 이유에 대해서 정리해보려고 합니다. 이전에 비교 정리해둔 파일 포멧에 대한 글은 아래의 링크를 참조해주세요.https://spidyweb.tistory.com/567https://spidyweb.tistory.com/4611. Parquet와 Avro 어떨 때, 왜 사용하나요?보통 Parquet는 Spark와 Avro는 Kafka와 같은 Streaming platform에 잘 어울린다고 알려져 있습니다.그 이유를 정리해보자면 각 파일의 특징과 관련이 있습니다.1) Par.. 2025. 5. 5.
[Spark] AWS EMR vs Glue ETL 비교 정리하기 (성능, 비용, 특징, 실행 방법,...) spark를 써봤다고 면접에서 어필을 할 때 나오는 단골 질문 중 하나인 어떤 제품을 통해 Spark를 실행 시켰으며 어떤 장점 때문에(왜) 해당 제품을 선택했나요? 다른 제품을 고려하지 않은 이유는? 에 대해 정리해보겠습니다.(사실 제 경우에는 Glue ETL을 많이 사용하지 않았기에 정확하게 비교해 볼만한 기회가 없었습니다.)1. AWS EMR이란EMR은 Spark 를 포함한 Hadoop Ecosystem이 탑재된 하둡 클러스터입니다. 따라서 Hive Job 및 다양한 작업을 실행할 수 있습니다.EMR(Elastic Map Reduce)는 크게 3가지로 나뉩니다.EMR on EC2EMR ServerlessEMR on EKS이번 포스트에는 EMR on EC2와 EMR Serverless에 대해 간단하게.. 2025. 5. 4.
[실업과 다음 목표] 실업 5개월 차에 드는 생각과 다음 단계 (실업 급여, 워킹홀리데이, 취업, 과정을 즐기는 법) 오랜만에 드는 생각을 정리할 겸 하나의 이정표를 만들고 가려고 합니다.원체 많은 생각이 드는데, 나름 정리도 할 겸 목록으로 구조화 시켜서 얘기를 풀어보려고 합니다. 현 상황과 드는 생각들취업 준비워킹 홀리데이(경력 단절과 한국 사회의 인식)실업 급여과정을 즐기는 법(생각이 너무 많다)다음 목표1. 현 상황과 드는 생각들이전 직장으로부터 경영난에 의한 구조조정 대상에 포함되고 난 이후로 벌써 5개월이 지났습니다.처음 1~2달은 원하던 여행도 많이 다니며, 여러 친구들과 약속을 잡고 하고 싶었던 모든 것들을 해 나갔습니다.스키도 타러 가고, 해외여행과 독서를 했고, 부족했던 기술 공부들도 하면서 시간을 보내고 있었습니다. 넘어진김에 오래 넘어져 있자는 생각으로 실업급여도 받는 입장이다보니, 급할게 없었다고.. 2025. 4. 26.
[Airflow] Airflow Backfill에 대해서 정리하기 (Feat. catchup) 이번 포스트에는 Airflow Backfill기능에 대해서 집중적으로 정리 해보겠습니다. 1. Backfill 기능이란?한 마디로 한다면 "Airflow에서 이전에 실행되지 않은 작업(태스크)을 자동으로 실행하는 과정"DAG(Directed Acyclic Graph)에서 이전의 실행 날짜나 특정 기간에 대한 작업을 다시 수행, backfill을 실행할 때 시작 날짜와 종료 날짜를 지정하여 특정 기간 동안의 작업을 재실행 start_date 부터 시작하지만 end_date 은 포함하지 않음주로 작업이 실패했거나 실행되지 않은 경우에 유용하게 사용execution_date를 사용해서 Incremental update가 구현되어 있어야 의미가 있음, master성(full refresh는 멱등성이 보장된 방법.. 2025. 3. 25.
[Kafka] 카프카 디자인 정리(특징, 데이터 모델, 리플리케이션, 주키퍼 지노드) 이번 포스트부터 카프카에 대해서 정리를 하겠습니다. 우선 카프카가 만들어질 때 고려된 점을 디자인에 반영한 그 특징에 대해서 정리해보겠습니다. 1. 카프카 디자인 특징링크드인에서 ActiveMQ를 사용하다가 사용자 증가로 한계점을 느끼고 카프카를 설계하게 됨분산된 데이터 파이프라인을 통합, 처리량에 중점을 둠높은 처리량과 빠른 메세지 전송, 운영 효율화 등을 위해 분산 시스템, 페이지 캐시, 배치 전송 처리 등의 기능을 구현1) 분산 시스템분산 시스템은 다음과 같은 장점이 있음단일 시스템보다 더 높은 성능분산 시스템 중 하나의 서버 또는 노드 등이 장애가 발생하면 다른 서버 또는 노드가 대신 처리함시스템 확장이 용이함2015년 기준 링크드인은 가장 사용량이 높은 클러스터의 경우 60대의 브로커로 분산 처.. 2025. 2. 19.
728x90