728x90 partition prunning1 [Spark] Spark partition pruning 개념, 확인 방법(실행 계획) 1.Partition Prunning 이란? prunning이란 '가지치기' 라는 뜻으로 데이터 시스템에서는 얻고자 하는 데이터를 가지고 있지 않은 파일은 스킵하고 얻고자 하는 파일만 스캔하는 최적화 기법 RDBMS의 Partition prunning과 개념적으로 동일 Spark가 HDFS나 S3와 같은 저장소에 디렉토리와 파일을 읽을 때 지정된 파티션의 파일만 읽을 수 있도록 성능 최적화를 가능하게 함 파일을 파티션구조로 만드는 것이 선행되어야 함 2. Static Partition Prunning 아래의 사진과 같이 모든 데이터를 Scan하여 filter하는 것이 아닌, 특정 원하는 데이터만 Filter 후 데이터를 scan하는 것이 pushdown filter 혹은 predicate pushdown.. 2021. 9. 14. 이전 1 다음 728x90