본문 바로가기
728x90

데이터 엔지니어링3

[Kafka] 카프카 디자인 정리(특징, 데이터 모델, 리플리케이션, 주키퍼 지노드) 이번 포스트부터 카프카에 대해서 정리를 하겠습니다. 우선 카프카가 만들어질 때 고려된 점을 디자인에 반영한 그 특징에 대해서 정리해보겠습니다. 1. 카프카 디자인 특징링크드인에서 ActiveMQ를 사용하다가 사용자 증가로 한계점을 느끼고 카프카를 설계하게 됨분산된 데이터 파이프라인을 통합, 처리량에 중점을 둠높은 처리량과 빠른 메세지 전송, 운영 효율화 등을 위해 분산 시스템, 페이지 캐시, 배치 전송 처리 등의 기능을 구현1) 분산 시스템분산 시스템은 다음과 같은 장점이 있음단일 시스템보다 더 높은 성능분산 시스템 중 하나의 서버 또는 노드 등이 장애가 발생하면 다른 서버 또는 노드가 대신 처리함시스템 확장이 용이함2015년 기준 링크드인은 가장 사용량이 높은 클러스터의 경우 60대의 브로커로 분산 처.. 2025. 2. 19.
[Data Engineering] Real-time processing, Streaming data과 Message의 차이는? 흔히들 실시간(real-time) streaming, Message 용어에 대한 개념에 대해 혼동하는 경우가 많으므로, 이번 포스트에는 해당 용어들을 정리해보겠습니다. 1. Real-time processing vs Streaming data1) Real-time processing실시간 처리에 대한 위키피디아 글 인용"실시간 프로그램은 지정된 시간 제약 내에서 응답을 보장해야 하며, 이는 종종 '데드라인'이라고 불린다. […] 실시간 처리는 특정 이벤트에 대해 지정된 데드라인 내에 완료되지 않으면 실패한 것으로 간주된다. 시스템 부하와 관계없이 데드라인은 항상 준수되어야 한다." 대개 우리가 real-time에 대해서 말할 때 2가지의 기준에 따라 분류 됨Real-time: 일반적으로 수 밀리초에서 몇.. 2025. 2. 1.
[Data Engineering] 데이터 엔지니어가 읽으면 좋을 책 추천 목록(+ 내가 읽은 순서, 읽을 순서) 이번 포스트에는 데이터엔지니어 오픈톡방 및 지인들에게 추천 받은 책 목록을 분야별로 분류하여 소개해 드리겠습니다. 또한 제가 책을 읽은 순서와 아직 읽지는 못한 책의 읽어야 할 순서도 정리해보겠습니다. 1. SQL 데이터 업계에 있어 가장 중요한 언어라고 생각되는 SQL, 예전에 저희 회사 이사님께서 말씀하시길 결국 하이브, 스파크도 사람들이 SQL사용하는게 편하기 때문에 그거에 맞게 생긴 프레임워크이거나, SQL을 사용할 수 있게 지원하는 방향으로 간다. SQL의 컨셉 for oracle 저자: 변동구 http://www.yes24.com/Product/Goods/6357997 SQL의 컨셉 for ORACLE - YES24 이 책은 SQL 초중급자를 대상으로 한다. SQL의 기본 개념과 문법을 알고,.. 2022. 9. 9.
728x90