본문 바로가기
BigData/Data Engineering

[Data Engineering] 데이터 엔지니어가 읽으면 좋을 책 추천 목록(+ 내가 읽은 순서, 읽을 순서)

by 스파이디웹 2022. 9. 9.
728x90

이번 포스트에는 데이터엔지니어 오픈톡방 및 지인들에게 추천 받은 책 목록을 분야별로 분류하여 소개해 드리겠습니다.

또한 제가 책을 읽은 순서와 아직 읽지는 못한 책의 읽어야 할 순서도 정리해보겠습니다.

 

 


1. SQL

데이터 업계에 있어 가장 중요한 언어라고 생각되는 SQL, 예전에 저희 회사 이사님께서 말씀하시길

결국 하이브, 스파크도 사람들이 SQL사용하는게 편하기 때문에 그거에 맞게 생긴 프레임워크이거나, SQL을 사용할 수 있게 지원하는 방향으로 간다.

SQL의 컨셉 for oracle

저자: 변동구

http://www.yes24.com/Product/Goods/6357997

 

SQL의 컨셉 for ORACLE - YES24

이 책은 SQL 초중급자를 대상으로 한다. SQL의 기본 개념과 문법을 알고, 실제로 사용하고 있지만 조금 부족한 DB 관리자나 개발자를 위한 책이다. 이 책의 가장 큰 장점은 다양한 실무 경력을 가진

www.yes24.com

위의 책은 완전 초보자를 위한 책은 아닙니다. 초보자에서 중급자로 갈때에 적절한 책이라고 생각됩니다.

NULL, 조인에대한 이해, 그룹핑 + 집계, window function(분석 함수) 및 검증 하는법, SQL의 코딩컨벤션 등 다양하게 소개하고 있습니다.

 

데이터 분석을 위한 SQL 레시피

저자: 가사키 나가토, 다미야 나오토

https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=138285757 

 

데이터 분석을 위한 SQL 레시피

현장에서 바로 써먹는 SQL 데이터 분석 실무 지침서. 데이터 집계와 가공, 매출 파악, 웹사이트 내 유저 행동 파악, 이상 수치 검출, 검출 기능 평가, 추천 기능 구축 등 상황별 실전 대응 방법과

www.aladin.co.kr

아직 읽어 보진않았지만 향후에 분석을 위한 SQL실력 향상에 많은 도움이 될 것 같아 읽어볼 목록에 포함시켰습니다.


2. python

여러 기업의 JD중 꼭 나오는 언어인 python은 데이터를 다루는데 아주 적합한 언어입니다.

 

  • 초보자용

 do it! 점프 투 파이썬

저자: 박응용

http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788997390915 

 

Do it! 점프 투 파이썬 - 교보문고

[간단한 책 소개] 드디어 나왔다! 1일 평균 8천 뷰, 누적 방문자 수 50만 명!10년간 온라인에서 검증된 ‘점프 투 파이썬’으로 프로그래밍을 시작하자!코딩을 처음 배우는 중ㆍ고등학생과 나만의

www.kyobobook.co.kr

 

이건 위키docs에도 나와있습니다.

https://wikidocs.net/book/1

  • 중급자용

파이썬을 여행하는 히치하이커를 위한 안내서

저자: 케네스 라이츠, 타냐 슐로서

http://www.yes24.com/Product/Goods/55258117

 

파이썬을 여행하는 히치하이커를 위한 안내서 - YES24

거대한 파이썬 세상을 모험하는 프로그래머를 위한 안내서파이썬을 ‘파이썬답게’ 쓰려면 어떻게 해야 할까? 파이썬스러운 코드라는 게 도대체 어떤 의미일까? 내가 작성한 코드를 파이썬답

www.yes24.com

 

개발환경 소개부터코드 스타일, 좋은 코드의 예시, 코드관리, 여러가지 라이브러리 및 데이터 작업 관련된 섹션과 같은 내용이 수록되어 있습니다.

 

파이썬 코딩의 기술(Effective PYTHON 2nd)

저자: 브렛 슬라킨

http://www.yes24.com/Product/Goods/94197582

 

파이썬 코딩의 기술(개정2판) - YES24

아마존 파이썬 프로그래밍 분야 베스트셀러, [Effective Python] 전면 개정 증보판! 파이썬의 매력과 강점을 이용해 강력하고 우수한 성능의 코드를 작성하는 90가지 방법! 파이썬다운 방식으로 프로

www.yes24.com

파이썬 중급, 고급으로 도약하기 위해 깔끔한 파이썬 코드와 효율적인 파이썬 코드의 예제와 방법을 소개하는 책입니다.

 


3. 빅데이터, 데이터 파이프라인 및 데이터엔지니어링

데이터 엔지니어링 톡방에서 매번 도서 추천을 하면 나오는 단골 책이며, 저도 엄청나게 강추하는

빅데이터를 지탱하는 기술

저자: 니시다 케이스케

http://www.yes24.com/Product/Goods/66277191

 

빅데이터를 지탱하는 기술 - YES24

현대 비즈니스의 성패는 데이터 수집과 통합, 그리고 처리 방법에 달렸다!데이터 처리 전문가가 알려주는 빅데이터와 관련 기술의 모든 것!`데이터 처리를 어떻게 시스템화할 것인가?` 『빅데이

www.yes24.com

정말 빅데이터와 데이터엔지니어링에서 나오는 용어며 기술이며 인프라적인 얘기까지도 수록되어있는 데이터엔지니어링의 바이블과 같은 책입니다.

 

 

 

O'REILLY 데이터 파이프라인 핵심 가이드

저자: 제임스 댄스모어

http://www.yes24.com/Product/Goods/106729751

 

데이터 파이프라인 핵심 가이드 - YES24

데이터 파이프라인의 모든 단계를 기초부터 탄탄하게 설명한다!데이터 파이프라인은 데이터 분석의 성공을 위한 기이다. 수많은 다양한 소스에서 데이터를 이동하고 컨텍스트를 제공하기 위해

www.yes24.com

ETL, ELT 데이터파이프라인의 정의, 데이터 수집, 변환, 적재까지 그리고 airflow와 파이프라인 유지, 검증, 성능 측정 및 모니터링의 내용까지 다루고있습니다. SQL적으로도 배울 것이 많은 책입니다.

 

실무로 배우는 빅데이터 기술

저자: 김강원

http://www.yes24.com/Product/Goods/90367993

 

실무로 배우는 빅데이터 기술 - YES24

전문 개발자가 아니어도 약간의 소프트웨어 지식만으로 빅데이터의 A~Z까지 기술들을 구현하고 경험해 볼 수 있는 파일럿 프로젝트 형식으로 구성했다. 빅데이터 시스템 구축에 필요한 실무 요

www.yes24.com

실제로 빅데이터에 사용되는 여러 프레임워크들을 사용해보는 일종의 프로젝트를 만드는 책입니다.

빅데이터 수집에 사용되는 플럼, 카프카,적재의 하둡, HBASE,레디스,스톰,에스퍼

탐색(처리)에 사용되는 하이브,스파크,우지,휴

분석에 사용되는 임팔라,제플릿,머하웃,스쿱 등을 소개합니다.

 

Apache Airflow 기반의 데이터 파이프라인

저자: 바스 하렌슬락, 율리안 더라위터르

http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9791191600681 

 

Apache Airflow 기반의 데이터 파이프라인 - 교보문고

에어플로 중심의 워크플로 구축에서 커스텀 컴포넌트 개발및 배포,관리까지 | 이 책은 효과적인 데이터 파이프라인을 만들고 유지하는 방법을 설명하고 있으며, 이를 통해 여러분은 다양한 데

www.kyobobook.co.kr

 

airflow 의 모든것. airflow의 바이블과 같은 책입니다.

 


4. 하둡

조금 오래되기도 해서 잘 따라지지 않은 예시들이 있지만, 하둡 클러스터 및 하둡에코시스템을 함께 소개하고 하둡에 대해 깊게 공부할 수 있는 책입니다.

 

빅데이터 전문가의 하둡관리

저자: 샘 R. 알라파티

http://www.yes24.com/Product/Goods/66586271

 

빅데이터 전문가의 하둡 관리 - YES24

하둡은 2003, 2005년에 발표된 구글 분산 파일 시스템(GFS)과 맵리듀스((MapReduce)를 구현한 것으로 대량의 자료를 처리할 수 있는 대형 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는

www.yes24.com

 


5. 스파크

이 책도 데이터엔지니어링 톡방에서 스파크 책을 추천해달라 하면 꼭 나오는 스파크의 바이블과 같은 책입니다.

 

O'REILLY 스파크 완벽 가이드(spark definitive guide)

저자: 빌 체임버스, 마테이 자하리아

http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9791162241288 

 

스파크 완벽 가이드 - 교보문고

스파크를 활용한 빅데이터 처리와 분석의 모든 것 | 스파크 활용과 배포, 유지 보수까지 전체적 흐름을 포괄적으로 안내하는 바이블이 책은 쉽게 실행할 수 있는 스파크 예제와 모든 유형의 기

www.kyobobook.co.kr


6. 도커 / 쿠버네티스

컨테이너 인프라 환경 구축을 위한 쿠버네티스 / 도커

저자: 조훈,심근우,문성주

http://www.yes24.com/Product/Goods/102099414

 

컨테이너 인프라 환경 구축을 위한 쿠버네티스/도커 - YES24

실무에 바로 적용할 수 있는 컨테이너 인프라 환경 기술!IT 자원을 효율적으로 빠르게 사용할 수 있는 방법으로 컨테이너 환경이 거론되었으나 그동안 관리가 어렵고 복잡해서 상용되기 어려웠

www.yes24.com

쿠버네티스와 도커 그리고 CI/CD 모니터링을 잘 배분하여 다루는 책입니다.

 

O'REILLY 쿠버네티스를 활용한 클라우드 네이티브 데브옵스

저자: 존 어런들, 저스틴 도밍거스

http://www.yes24.com/Product/Goods/83556239

 

쿠버네티스를 활용한 클라우드 네이티브 데브옵스 - YES24

데브옵스를 위한 쿠버네티스 완벽 활용 가이드 쿠버네티스가 표준 플랫폼으로 자리 잡은 클라우드 네이티브 세계에서 데브옵스를 실천하는 방법을 다룬다. 쿠버네티스 관련 기본 개념, 애플리

www.yes24.com

쿠버네티스에 대해 심층적으로 공부할 수 있는 책입니다.

 


7. 카프카

카프카는 아직 공부할 단계가 아닌 것 같아 읽어보진 않았지만, 카프카가 필요하고 공부해야 하는 순간이 오면 다음의 책들로 공부할 계획입니다.

 

실전 카프카 개발부터 운영까지

저자: 고승범

http://www.yes24.com/Product/Goods/104410708?pid=123487&cosemkid=go16352122654963899&gclid=Cj0KCQjwyOuYBhCGARIsAIdGQROv-9NkkQ4yv4nYUceJERptIFJloBI2xmXI34VkmHJIM0NzzIYt21oaAvq1EALw_wcB 

 

실전 카프카 개발부터 운영까지 - YES24

아파치 카프카의 공동 창시자 준 라오(Jun Rao)가 추천한 책!국내 최초이자 유일한 컨플루언트 공인 아파치 카프카 강사(Confluent Certified Trainer for Apache Kafka)와 공인 관리자 자격(Confluent Certified...

www.yes24.com

 

카프카, 데이터 플랫폼의 최강자

저자: 고승범, 공용준

http://www.yes24.com/Product/Goods/59789254?pid=123487&cosemkid=go15240199575950917&gclid=Cj0KCQjwyOuYBhCGARIsAIdGQROn24Nv9UR3weOUXtu70_qjZLuMVRBBxIWTdZnCb0FpaSQRTzfLLwcaAsmQEALw_wcB 

 

카프카, 데이터 플랫폼의 최강자 - YES24

데이터 플랫폼의 핵심 컴포넌트로 각광받고 있는, 이벤트 기반 비동기 아키텍처를 위한 고가용성 실시간 분산 스트리밍 솔루션 카프카(Kafka)의 모든 것!국내 최대 모바일 플랫폼 회사인 카카오

www.yes24.com


8. 데이터 모델링(DW)

랄프 킴벌의 데이터 웨어하우스 툴킷 DW/BI와 빅데이터 분석을 위한 다차원 모델링 완벽 가이드

저자: 랄프 킴벌

http://www.kyobobook.co.kr/product/detailViewKor.laf?mallGb=KOR&ejkGb=KOR&barcode=9788994774985 

 

데이터 웨어하우스 툴킷 - 교보문고

DW/BI와 빅데이터 분석을 위한 다차원 모델링 완벽 가이드 | 최신 내용으로 완벽하게 업데이트된 종합적인 다차원 모델링 가이드『The Data Warehouse Toolkit』 초판(1996)에서 랄프 킴벌이 다차원 모델

www.kyobobook.co.kr

DW/BI 와 빅데이터 분석을 위해 교과서와 같은 책이라고 들었습니다. data engineering 쪽에서도 DW/BI ETL 관련해서 도움이 많이 되는 책이라 생각하여 나중에 읽어볼 목록에 포함시켰습니다.

 


순서

내가 읽은 순서

나는 위의 책들을 전부 읽은 것은 아니지만 전부 읽을 계획은 있습니다.

기본기가 많이 부족하던 시절부터 시작하여

 1. do it! 점프 투 파이썬 → 2. SQL의 컨셉 for oracle → 3. 스파크 완벽 가이드 → 4. 빅데이터를 지탱하는 기술 → 5. 파이썬을 여행하는 히치하이커를 위한 안내서 → 6. 빅데이터 전문가의 하둡관리 → 7. O'REILLY 데이터 파이프라인 핵심 가이드 8. O'REILLY 쿠버네티스를 활용한 클라우드 네이티브 데브옵스

 

내가 앞으로 읽을 순서

아직도 공부할 건 많고 안 읽어본 책이 너무 많습니다.

어서 화이팅해서 읽어보고 또 복습도 할 계획입니다.

1. 컨테이너 인프라 환경 구축을 위한 쿠버네티스 / 도커  2. Apache Airflow 기반의 데이터 파이프라인 3. 빅데이터 전문가의 하둡관리 4. 실무로 배우는 빅데이터 기술 5. 데이터 분석을 위한 SQL 레시피 6. 파이썬 코딩의 기술(effective python 2nd) → 7. 랄프 킴벌의 데이터 웨어하우스 툴킷 DW/BI와 빅데이터 분석을 위한 다차원 모델링 완벽 가이드 8. 카프카, 데이터 플랫폼의 최강자 9. 실전 카프카 개발부터 운영까지

 

각자가 현재 어떤 기술들이 어느수준인지 아시고 현재 필요한 기술들이 어떤건지를 파악하시면 책을 읽는 순서를 정하실 수 있으시리라 생각됩니다.

제가 읽은 순서와 읽을 순서를 참고하셔서 보시면 될 것 같습니다.

728x90

댓글