728x90 메모리1 [Spark] 스파크의 분산형 공유 변수 Accumulator, Broadcast Variable정리 spark의 저수준 API에는 RDD 인터페이스 외에 두 번째 유형인 '분산형 공유 변수'가 있음AccumulatorBroadcast Variable1. Accumulator스파크의 2번째 공유 변수 타입트랜스포메이션 내부의 다양한 값을 갱신하는 데 사용, 내고장성을 보장하면서 효율적인 방식으로 드라이버에 값을 전달ex) 모든 태스크의 데이터를 굥유 결과에 추가할 수 있음ex) job의 입력 레코드를 파싱하면서 얼마나 많은 오류가 발생했는지 확인하는 카운터를 구현할 수 있음(디버깅용이나 저수준 집계 생성용)ex) 파티션별로 특정 변수의 값을 추적하는 용도로 사용할 수 있으며 시간이 흐를수록 더 유용하게 사용 됨결합성과 가환성을 가진 연산을 통해서만 더할 수 있는 변수이므로 병렬 처리 과정에서 효율적으로 .. 2025. 1. 7. 이전 1 다음 728x90