본문 바로가기
728x90

pandas3

[Python] pandas vs pyspark 사용 및 코드 비교 이번 포스트에는 pyspark과 pandas를 쓰임새를 비교 해보고, pyspark의 코드를 pandas코드로 옮겨보고 비교해보겠습니다. 1. Pandas vs Pyspark 언제쓸까? pandas와 spark는 dataframe이라는 SQL 테이블 또는 Excel 스프레드 시트에서와 같이 이질적으로 유형이 지정된 열이있는 데이블 형식 데이터를 다루게 될 때 아주 적합함 대부분의 데이터처리에는 pandas 라이브러리를 통해 해결했었는데, pandas와 spark의 가장 큰 차이는 핸들링하는 데이터의 양의 크기 pandas는 통상적으로 spark보다 작은 데이터 처리에 대해서는 속도가 빠르다고 하는데, 10GB이상의 파일 처럼 파일의 크기가 커지게 되면, pandas는 메모리용량의 부족으로 인해 성능이 저.. 2022. 9. 22.
[Spark] Spark 개요, Spark란 무엇이고 어떤 역할을 하는가? Spark Core, Pandas와 비교 Spark를 공부하기에 앞서 선행 되면 좋을 법한 것들 1. 하둡과 빅데이터 개념 https://spidyweb.tistory.com/239?category=910416 [Hadoop] 하둡이란? 하둡 에코시스템이란? hadoop, hadoop eco-system 개념 1.Hadoop 이란? -하둡은 분산 데이터 처리의 공통 플랫폼입니다. -하둡을 3가지로 나눈다면 1) 데이터 저장의 분산 파일 시스템(Distributed file system) HDFS 2) 데이터 처리의 분산 데이터 처리(Distributed da. spidyweb.tistory.com 2. python 언어(+pandas library) 혹은 scala언어 스파크는 여러가지 언어를 지원하지만, scala와 python이 점유율이 높.. 2022. 1. 26.
[python]파이썬이란? 파이썬으로 할 수 있는 것들과 할 수 없는 것들 파이썬이란 인터프리터 언어이다.(한 줄 씩 소스 코드를 해석해서 그때그때 실행해 결과를 바로 확인할 수 있는 언어.) (컴파일 언어,C언어 java) 파이썬의 특징 1. 인간다운(인간의 생각방식에 가까운)언어이다. ex) if 4 in [1,2,3,4]: print("4가 있다.") 2. 문법이 쉽다. 3. 무료이고, 강력하다. 시스템 프로그밍이나 하드웨어 제어와 같은 복잡하고 반복 연산이 많은 프로그램은 파이썬과 안 어울린다. 그래서 이러한 약점을 극복할 수 있게끔 다른 언어로 만든 프로그램을 파이썬 프로그램에 포함시킬 수 있다. (C와 찰떡궁합) 4. 간결하다. 의도적으로 간결하게 만들었기 때문에 파이썬은 가장 좋은 방법 1가지만 사용하는 것을 선호한다. ex) languages = ['python'.. 2021. 1. 3.
728x90