본문 바로가기
728x90

BigData/Flink2

[Flink] Flink가 CDC에 강력한 이유, SparkSteaming과 비교, 코드 예제(feat. Debezium, Iceberg) 1. Flink가 CDC에 있어서 강력한 이유1) 진정한 스트림 처리 엔진 (Event-at-a-time, Low Latency)Flink는 레코드 단위(event 단위)로 즉시 처리하는 ‘진짜 스트리밍’ 처리 구조반면 Spark Structured Streaming은 마이크로배치(몇 백 ms~초 단위) 처리로, 처리 지연(latency)이 크고 실시간 반응 속도가 떨어짐Kafka Connect + Debezium처럼 CDC 이벤트를 실시간으로 받아 즉각 반영해야 하는 경우 Flink가 훨씬 적합2) 강력한 상태 관리(Stateful Processing)Flink는 상태 저장소(State Backend)를 이용해 이벤트 간 상태를 유지할 수 있음CDC 데이터는 여러 이벤트가 특정 키(예: PK)에 대해 .. 2025. 6. 22.
[Flink] 좋은 스트리밍 시스템과 Apache Flink 기본 개념 정리 및 내부 구조 이번 포스트에는 스트림 데이터와 좋은 스트리밍 시스템은 어떤 것인지, Flink에 대한 기본 개념과 내부구조, 왜 좋은지 장단점에 대해서 정리해보겠습니다.1. 스트림 데이터와 좋은 스트리밍 시스템우선 flink가 스트리밍 시스템에 있어서 왜 좋은지를 파악하려면 스트림 데이터는 어떻게 쓰이고, 좋은 스트리밍 시스템은 어떤 기준을 갖고 있는지를 파악해 봐야 합니다.1) 스트림 데이터란계속해서 끊임없이 생성되고 흐르는 데이터를 의미한 번에 한 건씩(또는 작은 단위로) 발생하며, 실시간으로 처리되는 것이 일반적스트림 데이터의 예시쇼핑몰 고객의 구매 요청항공사 예약 발생보험금 청구은행 트랜잭션 발생클릭 이벤트서버 로그현재 IoT 장비의 위치기타 등등스트림 데이터를 활용하는 예시은행에서 이상 거래를 탐지쇼핑몰에서 .. 2025. 6. 15.
728x90