본문 바로가기
728x90

csv6

[Trouble shooting] CSV파일 MariaDB에 적재시키기 업무를 하다보니 HTML태그가 포함된 엄청난 길이의 HTML태그가 포함된 값과 여러 텍스트값들을 RDS Mariadb로 적재해달라는 요청이 있었습니다. 사실 MongoDB같은 NoSQL로 적재시키면 간단할거라 생각은 되었지만, 쿼리적으로 편하게 쓰고 싶다하셔서 MariaDB로의 이전을 부탁을 하셨습니다. 여기서 여러 에러를 만났는데, 생긴 이슈와 해결방법에 대해 정리해보겠습니다. [데이터 길이 이슈] 이정도면 되겠지? 문제 해결 테이블의 각 컬럼 크기를 너무 크게 잡지 않기위해 최적의 길이로 varchar를 설정하려다보니, import과정에서 데이터 길이가 크다는 에러를 많이 만남 대부분은 varchar를 조금씩 늘려가며 테스트했지만, HTML태그가 들어간 정말 텍스트성으로 보이는 컬럼은 데이터타입을 t.. 2023. 7. 15.
[Data Enginnering] 파일 형식 .parquet vs .csv vs .avro vs .orc 내부 구조와 읽는 방식에 따른 성능차이 1. csv 주요 특징 행 기반(Row based) plain text 기반 파일 형식(바이너리가 아님) human-readable(사람이 알아 볼 수 있는 데이터) flat하고 단순한 스키마 거의 모든 애플리케이션에서 처리 가능 2. parquet 주요 특징 열 기반(Columnar) binary format 내장된 스키마 3. orc(optimized row columnar) 주요 특징 Columnar binary format 내장된 스키마 4. avro 주요 특징 row based binary format 내장된 스키마 Schema Evolution support가 매우 좋음 5. 파일 형식 비교 csv parquet orc avro 저장 방식 row based column based column .. 2023. 2. 6.
[Spark Tuning] CSV vs Parquet(columnar format) in spark 성능비교하기 [File 크기] 컬럼 수: 21개의 컬럼 레코드 수: 총 3,647,595 rows(records) csv: 578MB parquet: 44.7MB (gz.parquet: 34.6MB) [비교 관점] spark에서의 성능이란 file을 스캔할 때 스캔한 양(읽어들인 양)과 스캔시간이 중요 [CSV vs Parquet 특징 비교] (json은 덤ㅎㅎ) 1. CSV csv는 일반적인 text, 즉 row단위로 읽는 file format 1) 1개의 column select df_csv.select(F.col("Exam_No")).show(100000) Physical plan == Physical Plan == CollectLimit (3) +- * Project (2) +- Scan csv (1) (1).. 2023. 1. 25.
[Project] ETL Daily batch project(공공데이터 코로나 API, Python, PySpark, Airflow, AWS) 3. ETL python 파일 만들기 이번 포스트는 공공데이터 코로나 API를 request로 받아 bs4로 lxml로 변환 후 pyspark를 이용해 데이터 처리를 해보겠습니다. 어떤 프로젝트인지 잘 모르시는 분은 아래의 링크를 참고해주세요. 2022.02.17 - [BigData/Project] - [Project] ETL Daily batch project(공공데이터 코로나 API, Python, PySpark, Airflow, AWS) 1. 프로젝트 개요 1. 공공데이터 API를 REST하게 받아오기 코로나감염현황 API를 불러오기 위해서는 해당 url과 일반 인증키가 필요합니다.(일반 인증키는 자신의 계정 마이페이지 활용 신청된 페이지에서 확인하실 수 있습니다.) 또한 startCreateDT, endCreateDT 매개변수를 채워.. 2022. 2. 17.
[Spark] spark standalone 모드로 pyspark 실습(.py spark submit)+ui확인하기 이번 포스트에서는 spark standalone 모드 즉, yarn을 이용하지 않고 local(단일 노드로) pyspark을 제출하는 .py 파일을 생성해 스크립트 실행을 시켜 제출해보도록 하겠습니다. 하둡 및 스파크를 설치하지 못하신 분은 아래의 링크를 참고해 주세요. 2021.04.26 - [BigData] - [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 [Hadoop] virtual box linux [ubuntu 18.04]에 하둡 설치,다운로드 1.virtualbox에 ubuntu 설치하기 1.virtual box를 다운로드한다. www.virtualbox.org/wiki/Downloads Down.. 2021. 11. 8.
[NOSQL] MongoDB Shell(명령어)로 CSV, JSON import 해보기 testdb 데이터베이스,testdb collection 생성, 직접 데이터 입력 1)show dbs 를 통한 database 목록확인 2)use testdb 를 이용한 데이터베이스 생성 및 사용 3)db.testdb.insert({"example":"ex1"})를 통한 collection 생성 및 데이터 삽입 // db는 현재 데이터베이스, testdb는 생성할(사용할) collection 이름 4)db.testdb.find()를 통한 데이터 확인 5)show dbs를 통해 만들어진 데이터베이스 확인 #여기까지가 전에 했던 내용. spidyweb.tistory.com/163?category=833086 지금부터는 shell을 통해 CSV,JSON 파일을 import 하는 방법을 소개해드리겠습니다. 1... 2021. 1. 11.
728x90