728x90 dataframe vs rdd vs dataset1 [BigData] Spark( RDD vs DataFrame vs Dataset) + SparkSQL 출처 : A comparison between RDD, DataFrame and Dataset in Spark from a developer’s point of viewRDDResilient: 분산되어 있는 데이터에 에러가 생겨도 복구할 수 있는 능력Distributed: 클러스터의 여러 노드에 데이터를 분산해서 저장Dataset: 분산된 데이터의 모음SparkContext를 통해 만들어지며 보통 sc=spark.SparkContext를 통해 객체를 생성한다SparkSession을 import해도 SparkContext가 포함되어 있는 내용이라 SparkSession만 import해도 사용가능하긴 하다.ex)spark = SparkSession.builder.appName("이름").master("loc.. 2021. 2. 15. 이전 1 다음 728x90