[Python] (Web Scraping, 데이터 크롤링) Selenium vs Scrapy vs Beautiful Soup

728x90

scraping이란? crawling이란?

의미적으론 컴퓨터 소프트웨어 기술로 웹 사이트들에서 원하는 정보를 추출하는 것

원하는 데이터를 추출하다, 원하는 데이터를 긁어오다의 의미

차이로는

web crawling

web scraping

파이썬으로 작성된 web crawling framework
미들웨어, 파이프라인, javascript renderer(splash), proxy, xpath, CLI 등 다양한 기능들과 플러그인들을 사용할 수 있다.
병렬처리, robots.txt 준수여부, 다운로드 속도 제어 등 설정 가능하다.
플러그인들이 호환이 잘 안되는 편
직접 BeautifulSoup나 lxml을 사용가능
XPath를 사용함으로써 복잡한 HTML소스를 쉽게 크롤링
HTML을 다운로드하고 데이터에 접근하여 저장

*lxml이란?

[Python] lxml이란?

XML 및 lxml이란? -XML이란 단순한 문자열을 넘어서서, 내부적으로 트리 구조를 가지고 있는 파일을 표현하기 위해 사용하는 마크업 언어입니다. -웹페이지를 보여주기 위해 사용되는 html 파일이 XML

spidyweb.tistory.com

참조:

728x90

python 2 vs python 3 주요 차이점 (0)	2021.08.19
[Python] 조건문(if)-제어문,분기문과 차이, 반복문(while문,for문), 예외처리(try, except, else, finally) 개념과 예제 (0)	2021.01.13
[Python] 파이썬의 자료형과 예제 (0)	2021.01.12
[Python] lxml이란? (0)	2021.01.12
[python]파이썬이란? 파이썬으로 할 수 있는 것들과 할 수 없는 것들 (0)	2021.01.03