728x90 transformation2 [Spark] Spark Streaming, Structured Streaming 기초 정리 이번 포스트에는 spark streaming 고수준 API인 structured streaming에 대해서 정리해보겠습니다. 1. Structured Streaming 개요 및 특징Structured streaming은 spark SQL 엔진 기반의 스트림 처리 프레임워크(spark의 structured API인 Dataframe, Dataset 그리고 SQL를 사용함)스트리밍 연산은 배치 연산과 동일하게 표현함, 사용자가 스트림 처리용 코드와 목적지를 정의하면 structured streaming 엔진에서 신규 데이터에 대한 증분 및 연속형 쿼리를 실행하고, 코드 생성, 쿼리 최적화 등의 기능을 지원하는 카탈리스트 엔진을 사용해 연산에 대한 논리적 명령을 처리함종합적이며, 정확히 한 번 처리 방식(ex.. 2025. 2. 6. [Spark] RDD action & transformation + Dataframe의 연산(operation) 분류 Spark는 분산 환경에서 데이터를 다루는 데 필요한 지연 처리방식(lazy evaluation)의 transformation과 즉시 실행 방식의 action을 제공그리고 DataFrame과 Dataset의 transformation, action과 동일한 방식으로 동작한다.1. RDD transformationSpark Transformation는 기존의 RDD에서 새로운 RDD를 생성하는 functionLazy 처리방식(lazy evaluation)이라서 action을 호출할 때 transformation이 실제로 실행 → transformation을 수행할 때 query plan만 만들고 실제로 메모리에 올리지는 않는다. action이 호출될 때 transformation을 메모리에 올려서 수행하고.. 2021. 12. 29. 이전 1 다음 728x90