이번 포스트에는 데이터엔지니어 오픈톡방 및 지인들에게 추천 받은 책 목록을 분야별로 분류하여 소개해 드리겠습니다.
또한 제가 책을 읽은 순서와 아직 읽지는 못한 책의 읽어야 할 순서도 정리해보겠습니다.
1. SQL
데이터 업계에 있어 가장 중요한 언어라고 생각되는 SQL, 예전에 저희 회사 이사님께서 말씀하시길
결국 하이브, 스파크도 사람들이 SQL사용하는게 편하기 때문에 그거에 맞게 생긴 프레임워크이거나, SQL을 사용할 수 있게 지원하는 방향으로 간다.
SQL의 컨셉 for oracle
저자: 변동구
http://www.yes24.com/Product/Goods/6357997
위의 책은 완전 초보자를 위한 책은 아닙니다. 초보자에서 중급자로 갈때에 적절한 책이라고 생각됩니다.
NULL, 조인에대한 이해, 그룹핑 + 집계, window function(분석 함수) 및 검증 하는법, SQL의 코딩컨벤션 등 다양하게 소개하고 있습니다.
데이터 분석을 위한 SQL 레시피
저자: 가사키 나가토, 다미야 나오토
https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=138285757
아직 읽어 보진않았지만 향후에 분석을 위한 SQL실력 향상에 많은 도움이 될 것 같아 읽어볼 목록에 포함시켰습니다.
2. python
여러 기업의 JD중 꼭 나오는 언어인 python은 데이터를 다루는데 아주 적합한 언어입니다.
- 초보자용
do it! 점프 투 파이썬
저자: 박응용
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788997390915
이건 위키docs에도 나와있습니다.
- 중급자용
파이썬을 여행하는 히치하이커를 위한 안내서
저자: 케네스 라이츠, 타냐 슐로서
http://www.yes24.com/Product/Goods/55258117
개발환경 소개부터코드 스타일, 좋은 코드의 예시, 코드관리, 여러가지 라이브러리 및 데이터 작업 관련된 섹션과 같은 내용이 수록되어 있습니다.
파이썬 코딩의 기술(Effective PYTHON 2nd)
저자: 브렛 슬라킨
http://www.yes24.com/Product/Goods/94197582
파이썬 중급, 고급으로 도약하기 위해 깔끔한 파이썬 코드와 효율적인 파이썬 코드의 예제와 방법을 소개하는 책입니다.
3. 빅데이터, 데이터 파이프라인 및 데이터엔지니어링
데이터 엔지니어링 톡방에서 매번 도서 추천을 하면 나오는 단골 책이며, 저도 엄청나게 강추하는
빅데이터를 지탱하는 기술
저자: 니시다 케이스케
http://www.yes24.com/Product/Goods/66277191
정말 빅데이터와 데이터엔지니어링에서 나오는 용어며 기술이며 인프라적인 얘기까지도 수록되어있는 데이터엔지니어링의 바이블과 같은 책입니다.
O'REILLY 데이터 파이프라인 핵심 가이드
저자: 제임스 댄스모어
http://www.yes24.com/Product/Goods/106729751
ETL, ELT 데이터파이프라인의 정의, 데이터 수집, 변환, 적재까지 그리고 airflow와 파이프라인 유지, 검증, 성능 측정 및 모니터링의 내용까지 다루고있습니다. SQL적으로도 배울 것이 많은 책입니다.
실무로 배우는 빅데이터 기술
저자: 김강원
http://www.yes24.com/Product/Goods/90367993
실제로 빅데이터에 사용되는 여러 프레임워크들을 사용해보는 일종의 프로젝트를 만드는 책입니다.
빅데이터 수집에 사용되는 플럼, 카프카,적재의 하둡, HBASE,레디스,스톰,에스퍼
탐색(처리)에 사용되는 하이브,스파크,우지,휴
분석에 사용되는 임팔라,제플릿,머하웃,스쿱 등을 소개합니다.
Apache Airflow 기반의 데이터 파이프라인
저자: 바스 하렌슬락, 율리안 더라위터르
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9791191600681
airflow 의 모든것. airflow의 바이블과 같은 책입니다.
4. 하둡
조금 오래되기도 해서 잘 따라지지 않은 예시들이 있지만, 하둡 클러스터 및 하둡에코시스템을 함께 소개하고 하둡에 대해 깊게 공부할 수 있는 책입니다.
빅데이터 전문가의 하둡관리
저자: 샘 R. 알라파티
http://www.yes24.com/Product/Goods/66586271
5. 스파크
이 책도 데이터엔지니어링 톡방에서 스파크 책을 추천해달라 하면 꼭 나오는 스파크의 바이블과 같은 책입니다.
O'REILLY 스파크 완벽 가이드(spark definitive guide)
저자: 빌 체임버스, 마테이 자하리아
http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9791162241288
6. 도커 / 쿠버네티스
컨테이너 인프라 환경 구축을 위한 쿠버네티스 / 도커
저자: 조훈,심근우,문성주
http://www.yes24.com/Product/Goods/102099414
쿠버네티스와 도커 그리고 CI/CD 모니터링을 잘 배분하여 다루는 책입니다.
O'REILLY 쿠버네티스를 활용한 클라우드 네이티브 데브옵스
저자: 존 어런들, 저스틴 도밍거스
http://www.yes24.com/Product/Goods/83556239
쿠버네티스에 대해 심층적으로 공부할 수 있는 책입니다.
7. 카프카
카프카는 아직 공부할 단계가 아닌 것 같아 읽어보진 않았지만, 카프카가 필요하고 공부해야 하는 순간이 오면 다음의 책들로 공부할 계획입니다.
실전 카프카 개발부터 운영까지
저자: 고승범
카프카, 데이터 플랫폼의 최강자
저자: 고승범, 공용준
8. 데이터 모델링(DW)
랄프 킴벌의 데이터 웨어하우스 툴킷 DW/BI와 빅데이터 분석을 위한 다차원 모델링 완벽 가이드
저자: 랄프 킴벌
http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788994774985
DW/BI 와 빅데이터 분석을 위해 교과서와 같은 책이라고 들었습니다. data engineering 쪽에서도 DW/BI ETL 관련해서 도움이 많이 되는 책이라 생각하여 나중에 읽어볼 목록에 포함시켰습니다.
순서
내가 읽은 순서
나는 위의 책들을 전부 읽은 것은 아니지만 전부 읽을 계획은 있습니다.
기본기가 많이 부족하던 시절부터 시작하여
1. do it! 점프 투 파이썬 → 2. SQL의 컨셉 for oracle → 3. 스파크 완벽 가이드 → 4. 빅데이터를 지탱하는 기술 → 5. 파이썬을 여행하는 히치하이커를 위한 안내서 → 6. 빅데이터 전문가의 하둡관리 → 7. O'REILLY 데이터 파이프라인 핵심 가이드 8. O'REILLY 쿠버네티스를 활용한 클라우드 네이티브 데브옵스
내가 앞으로 읽을 순서
아직도 공부할 건 많고 안 읽어본 책이 너무 많습니다.
어서 화이팅해서 읽어보고 또 복습도 할 계획입니다.
1. 컨테이너 인프라 환경 구축을 위한 쿠버네티스 / 도커 → 2. Apache Airflow 기반의 데이터 파이프라인 → 3. 빅데이터 전문가의 하둡관리 → 4. 실무로 배우는 빅데이터 기술 → 5. 데이터 분석을 위한 SQL 레시피 → 6. 파이썬 코딩의 기술(effective python 2nd) → 7. 랄프 킴벌의 데이터 웨어하우스 툴킷 DW/BI와 빅데이터 분석을 위한 다차원 모델링 완벽 가이드 → 8. 카프카, 데이터 플랫폼의 최강자 → 9. 실전 카프카 개발부터 운영까지
각자가 현재 어떤 기술들이 어느수준인지 아시고 현재 필요한 기술들이 어떤건지를 파악하시면 책을 읽는 순서를 정하실 수 있으시리라 생각됩니다.
제가 읽은 순서와 읽을 순서를 참고하셔서 보시면 될 것 같습니다.
'BigData > Data Engineering' 카테고리의 다른 글
[Data Engineering] CCA Spark and Hadoop Developer Exam(CCA175) 정보와 준비 자료 (0) | 2023.03.07 |
---|---|
[Data Enginnering] 파일 형식 .parquet vs .csv vs .avro vs .orc 내부 구조와 읽는 방식에 따른 성능차이 (0) | 2023.02.06 |
댓글