본문 바로가기
728x90

데이터 파이프라인2

[Kafka] 실시간 데이터(스트리밍) 처리 데이터 파이프라인 설계, tool 비교 정리 1) broker 역할 비교, Kafka와 kinesis의 비교 이 시리즈를 포스트하는 이유도 사실 면접에서 받은 질문으로 부터 시작됐습니다. 제가 스트리밍 플랫폼에 대한 지식도 많지 않을 뿐더러 이번 기회에 카프카를 비롯한 스트리밍 플랫폼 학습을 제대로 하고자 게시를 하게 됐습니다. 카프카의 기본적인 개념이나 확장은 다른 포스트에서 자세히 다뤄보고, 철저히 특징과 장단점위주로 다른 제품군과 비교를 하여 가장 효율적인 스트리밍 파이프라인은 어떤 형태 일지를 구상하며 정리해보도록 하겠습니다. 1편(broker 비교, kafka vs kinesis)https://spidyweb.tistory.com/5992편(consumer 비교, flink, spark streaming, kafka streaming, logstash, kinesis firehose)https://sp.. 2025. 5. 7.
데이터 파이프라인(Data Pipeline) 데이터 파이프라인 : 효율을 위한 작업 데이터 파이프라인의 시작은 왜, 어디에서, 어떻게 데이터를 수집할 것인가에서 부터 시작한다. 데이터 파이프라인을 구축하기 위해서는 여러 소프트웨어적인 수동 작업들을 제거해야하며 Data가 각 지점을 순조롭게 흐르도록(flow) 만들어야 한다. Data의 추출(extracting), 변경(transforming), 결합(combining), 검증(validating) 그리고 적재(loading)하는 과정들을 자동화 하는 것이다. 또한 여러 데이터 스트림을 한번에 처리해야 한다. 이 모든 과정은 오늘날 data-driven enterprise에서 필수적이다. 데이터파이프라인은 모든 종류의 스키마의 데이터를 수용해야한다. 입수하고자 하는 파일이 static source든.. 2020. 9. 14.
728x90