본문 바로가기
728x90

BigData/Data Engineering3

[Data Engineering] CCA Spark and Hadoop Developer Exam(CCA175) 정보와 준비 자료 1. 시험 소개 1) 자격증 분류 cloudera 주관 CDH(Cloudera Distribution Including Apache Hadoop) , HDP(Hortonworks Data Platform) 자격증 중, CCA(Cloudera Certified Association)에 해당하는 자격증 2) 자격증 소개 Apache Spark와 Cloudera Enterprise tool을 이용한 데이터 수집, 가공 ,처리를 다루는 자격증 문항 수 Cloudera Enterprise cluster에서 수행하는 8 ~ 12개의 수행능력 기반의(hands-on) 과제 시간 제한 120분 합격 점수 70% 이상 문제의 언어형식 영어 시험 비용 US$295 Spark 코딩 시 사용 가능 프로그래밍 언어 (결과만 중.. 2023. 3. 7.
[Data Enginnering] 파일 형식 .parquet vs .csv vs .avro vs .orc 내부 구조와 읽는 방식에 따른 성능차이 1. csv 주요 특징 행 기반(Row based) plain text 기반 파일 형식(바이너리가 아님) human-readable(사람이 알아 볼 수 있는 데이터) flat하고 단순한 스키마 거의 모든 애플리케이션에서 처리 가능 2. parquet 주요 특징 열 기반(Columnar) binary format 내장된 스키마 3. orc(optimized row columnar) 주요 특징 Columnar binary format 내장된 스키마 4. avro 주요 특징 row based binary format 내장된 스키마 Schema Evolution support가 매우 좋음 5. 파일 형식 비교 csv parquet orc avro 저장 방식 row based column based column .. 2023. 2. 6.
[Data Engineering] 데이터 엔지니어가 읽으면 좋을 책 추천 목록(+ 내가 읽은 순서, 읽을 순서) 이번 포스트에는 데이터엔지니어 오픈톡방 및 지인들에게 추천 받은 책 목록을 분야별로 분류하여 소개해 드리겠습니다. 또한 제가 책을 읽은 순서와 아직 읽지는 못한 책의 읽어야 할 순서도 정리해보겠습니다. 1. SQL 데이터 업계에 있어 가장 중요한 언어라고 생각되는 SQL, 예전에 저희 회사 이사님께서 말씀하시길 결국 하이브, 스파크도 사람들이 SQL사용하는게 편하기 때문에 그거에 맞게 생긴 프레임워크이거나, SQL을 사용할 수 있게 지원하는 방향으로 간다. SQL의 컨셉 for oracle 저자: 변동구 http://www.yes24.com/Product/Goods/6357997 SQL의 컨셉 for ORACLE - YES24 이 책은 SQL 초중급자를 대상으로 한다. SQL의 기본 개념과 문법을 알고,.. 2022. 9. 9.
728x90