728x90 DF to RDD1 [Spark] RDD vs DataFrame 큰 차이점, Dataframe을 사용해야 되는 이유, RDD를 사용해야 하는 경우는? RDD, Dataframe 다루기 RDD란? 정의 및 특징, dataframe과의 차이는? RDD(Resilient Distributed Dataset) 특징 설명 Resilient RDD lineage 그래프를 통한 fault-tolerant가 빠졌거나,node의 실패로 인한 손상된 파티션을 다시 실행시킨다. Distributed 클러스터의 여러 노드에 데이터가 분산되어 저장 Dataset 원천 데이터값 혹은 값의 값들로 이루어진 파티션된 collection 데이터 (튜플 혹은 다른 레코드로써 사용될 수 있는 데이터 객체들) RDD 특징 특징 설명 In-Memory RDD속의 데이터는 가능한 많이, 오래 메모리에 저장되어 있다. 불가변성(읽기 전용) 한번 생성되고 나면 변하지 않는다. transformation 연산을 통해 새로운 RD.. 2021. 12. 16. 이전 1 다음 728x90