728x90 DataSet1 [BigData] Spark( RDD vs DataFrame vs Dataset) 출처 : A comparison between RDD, DataFrame and Dataset in Spark from a developer’s point of view RDD Resilient: 분산되어 있는 데이터에 에러가 생겨도 복구할 수 있는 능력 Distributed: 클러스터의 여러 노드에 데이터를 분산해서 저장 Dataset: 분산된 데이터의 모음 SparkContext를 통해 만들어지며 보통 sc=spark.SparkContext를 통해 객체를 생성한다 SparkSession을 import해도 SparkContext가 포함되어 있는 내용이라 SparkSession만 import해도 사용가능하긴 하다. ex) spark = SparkSession.builder.appName("이름").mas.. 2021. 2. 15. 이전 1 다음 728x90