본문 바로가기
728x90

Python30

[Python] (Web Scraping, 데이터 크롤링) Selenium vs Scrapy vs Beautiful Soup scraping이란? crawling이란? 의미적으론 컴퓨터 소프트웨어 기술로 웹 사이트들에서 원하는 정보를 추출하는 것 원하는 데이터를 추출하다, 원하는 데이터를 긁어오다의 의미 차이로는 web crawling 수많은 웹사이트들을 체계적으로 돌아다니면서 URL, 키워드 등을 수집하는 것 (보통 검색 엔진이 웹사이트를 인덱싱하기 위해서 사용됨.) web scraping 웹사이트에서 필요한 데이터를 긁어오는 것 Beautifulsoup HTML, XML파일의 정보를 추출해내는 python library python 내장 모듈인 request나 urllib을 이용해 HTML을 다운 받고, beautifulsoup으로 데이터를 추출 REST API에서 데이터를 가져올 때에도 사용됨 서버에서 HTML을 다운받음.. 2021. 1. 12.
[Python] lxml이란? XML 및 lxml이란? -XML이란 단순한 문자열을 넘어서서, 내부적으로 트리 구조를 가지고 있는 파일을 표현하기 위해 사용하는 마크업 언어입니다. -웹페이지를 보여주기 위해 사용되는 html 파일이 XML의 가장 대표적인 예시입니다. -우리가 친숙하게 사용하는 MS Office의 워드, 엑셀, 파워포인트 파일(docx, xlsx, pptx)도 XML의 일종입니다. -따라서 XML을 해석하는 프로그램(parser라고 부릅니다.)을 미리 준비해야 html, docx, xlsx, pptx와 같이 우리가 흔히 다루는 파일을 처리할 수 있습니다. -Python에서 XML parser로서 주로 이용되는 패키지는 lxml입니다. lxml다운로드 사이트 pypi.org/project/lxml/ lxml Powerf.. 2021. 1. 12.
[python]파이썬이란? 파이썬으로 할 수 있는 것들과 할 수 없는 것들 파이썬이란 인터프리터 언어이다.(한 줄 씩 소스 코드를 해석해서 그때그때 실행해 결과를 바로 확인할 수 있는 언어.) (컴파일 언어,C언어 java) 파이썬의 특징 1. 인간다운(인간의 생각방식에 가까운)언어이다. ex) if 4 in [1,2,3,4]: print("4가 있다.") 2. 문법이 쉽다. 3. 무료이고, 강력하다. 시스템 프로그밍이나 하드웨어 제어와 같은 복잡하고 반복 연산이 많은 프로그램은 파이썬과 안 어울린다. 그래서 이러한 약점을 극복할 수 있게끔 다른 언어로 만든 프로그램을 파이썬 프로그램에 포함시킬 수 있다. (C와 찰떡궁합) 4. 간결하다. 의도적으로 간결하게 만들었기 때문에 파이썬은 가장 좋은 방법 1가지만 사용하는 것을 선호한다. ex) languages = ['python'.. 2021. 1. 3.
728x90