본문 바로가기
728x90

파이썬4

[Data Engineering] 데이터 엔지니어가 읽으면 좋을 책 추천 목록(+ 내가 읽은 순서, 읽을 순서) 이번 포스트에는 데이터엔지니어 오픈톡방 및 지인들에게 추천 받은 책 목록을 분야별로 분류하여 소개해 드리겠습니다. 또한 제가 책을 읽은 순서와 아직 읽지는 못한 책의 읽어야 할 순서도 정리해보겠습니다. 1. SQL 데이터 업계에 있어 가장 중요한 언어라고 생각되는 SQL, 예전에 저희 회사 이사님께서 말씀하시길 결국 하이브, 스파크도 사람들이 SQL사용하는게 편하기 때문에 그거에 맞게 생긴 프레임워크이거나, SQL을 사용할 수 있게 지원하는 방향으로 간다. SQL의 컨셉 for oracle 저자: 변동구 http://www.yes24.com/Product/Goods/6357997 SQL의 컨셉 for ORACLE - YES24 이 책은 SQL 초중급자를 대상으로 한다. SQL의 기본 개념과 문법을 알고,.. 2022. 9. 9.
[Python] re 모듈, 정규 표현식(정규식) 개념과 완전 정복하기(regex cheat sheet) SQL, HIVE, PySpark에서의 regex 이번 포스트에서는 정규표현식의 개념과, python에서 정규표현식을 지원하는 re 모듈에 대해서 정리하겠습니다. 1. 정규 표현식이란? 정규 표현식(Regular Expressions)은 복잡한 문자열을 처리할 때 사용하는 기법으로, 파이썬만의 고유 문법이 아니라 문자열을 처리하는 모든 곳에서 사용, 정규식이라고도 부름 2. 정규 표현식의 기초, 메타 문자 ※ 메타 문자란 원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자 . ^ $ * + ? { } [ ] \ | ( ) 1) 문자 클래스 [ ] 문자 클래스로 만들어진 정규식은 '[ ] 사이의 문자들과 매치'를 의미 예를 들어, 정규 표현식 [abc] 는 'a, b, c 중 한 개의 문자와 매치'를 뜻함 즉, 어떠한 문자열에("defg") 위의.. 2022. 4. 9.
[Python] module, 사용법, if __name__=="__main__": ,package 개념 1. 모듈(module)이란? 함수나 변수 또는 클래스를 모아 놓은 파일 다른 파이썬 프로그램에서 불러와 사용할 수 있게끔 만든 파이썬 파일 코드의 특정 부분을 분리해서 따로 모아놓은 것 파일 하나를 1개의 모듈로 봄 import 문을 통해 모듈 사용이 가능 가독성을 위해서 맨위에 import문을 넣음 1) 모듈 불러오기 결국 모듈은 파이썬 파일이고 이 모듈을 불러오는 것이 중요 import 모듈(파이썬 파일명) import는 현재 디렉터리에 있는 파일이나 파이썬 라이브러리가 저장된 디렉터리에 있는 모듈만 불러올 수 있다.(현재 디렉터리의 파이썬 파일, 가상환경 내 site-packages에 있는 파이썬 파일) def add(a, b): return a + b 해당 코드가 module1에 있다고 가정 했.. 2022. 2. 18.
[Python] (Web Scraping, 데이터 크롤링) Selenium vs Scrapy vs Beautiful Soup scraping이란? crawling이란? 의미적으론 컴퓨터 소프트웨어 기술로 웹 사이트들에서 원하는 정보를 추출하는 것 원하는 데이터를 추출하다, 원하는 데이터를 긁어오다의 의미 차이로는 web crawling 수많은 웹사이트들을 체계적으로 돌아다니면서 URL, 키워드 등을 수집하는 것 (보통 검색 엔진이 웹사이트를 인덱싱하기 위해서 사용됨.) web scraping 웹사이트에서 필요한 데이터를 긁어오는 것 Beautifulsoup HTML, XML파일의 정보를 추출해내는 python library python 내장 모듈인 request나 urllib을 이용해 HTML을 다운 받고, beautifulsoup으로 데이터를 추출 REST API에서 데이터를 가져올 때에도 사용됨 서버에서 HTML을 다운받음.. 2021. 1. 12.
728x90