728x90 RDD to DF1 [Spark] RDD vs DataFrame 큰 차이점, Dataframe을 사용해야 되는 이유, RDD를 사용해야 하는 경우는? RDD, Dataframe 다루기 RDD란? 정의 및 특징, dataframe과의 차이는?RDD(Resilient Distributed Dataset)특징설명ResilientRDD lineage 그래프를 통한 fault-tolerant가 빠졌거나,node의 실패로 인한 손상된 파티션을 다시 실행시킨다.Distributed클러스터의 여러 노드에 데이터가 분산되어 저장Dataset원천 데이터값 혹은 값의 값들로 이루어진 파티션된 collection 데이터(튜플 혹은 다른 레코드로써 사용될 수 있는 데이터 객체들)RDD 특징특징설명In-MemoryRDD속의 데이터는 가능한 많이, 오래 메모리에 저장되어 있다.불가변성(읽기 전용)한번 생성되고 나면 변하지 않는다. transformation 연산을 통해 새로운 RDD로써 만들 수 있다.lazy .. 2021. 12. 16. 이전 1 다음 728x90