기록방

파이썬 웹 크롤링 교재 #1 본문

웹 크롤링

파이썬 웹 크롤링 교재 #1

Soom_1n 2022. 9. 21. 23:28

"한입에 웹 크롤링 프알못의 파이썬 데이터 수집 자동화 한 방에 끝내기"

 

한입에 웹 크롤링 - 교보문고

프알못의 파이썬 데이터 수집 자동화 한 방에 끝내기 | 인터넷에서 데이터를 수집하여 받아오는 것을 크롤링 또는 스크래핑이라고 하고, 크롤링을 하는 프로그램을 크롤러라고 합니다. 웹 크롤

www.kyobobook.co.kr

 

개발 환경

교재

  • 파이참
  • python 3.6
  • mac, window10

내 컴퓨터

  • 파이참
  • python 3.10
  • window10

<1장 파이썬 배경지식, 2장 설치과정 생략>

 

3장 파이썬 기초


<문법은 생략>

라이브러리(Library) : 다른 사람들이 만들어 놓은 코드. 패키지(Package)라고도 함

    ex) beautifulsoup(뷰티풀솝), numpy(넘파이), pandas(판다스), matplot(맷플롯) 등

         → 파이참(PyCharm)은 다른 라이브러리를 쉽게 설치할 수 있다

              ex) File→Settings→Python Interpreter(검색가능)→’+’버튼→urllib3검색→install

 

4장 웹 기초


HTTP

  • HTTP는 Hyper Text Transfer Protocol(하이퍼 텍스트 트렌스퍼 프로토콜)의 약자
  • 하이퍼 텍스트는 마우스로 클릭하면 다른 페이지가 열리는 기능
  • HTTP는 HTML로 작성되어있는 하이퍼 텍스트를 전송하기 위한 프로토콜

URL

  • URL(Uniform Resource Locator)는 쉽게 말해 인터넷 주소
  • 정확히는 네트워크 상에서 자원의 위치를 알려주는 주소(https가 아닌 ftp, mailto 등의 다른 규약이라면 동작이 요청하는 서비스가 다를 수 있음)
  • ex) https://www.naver.com ⇒ https 라는 규약(프로토콜)로 www.naver.com라는 주소의 실제 위치에 접속해서 정보를 가져오겠다는 의미

HTML

  • HTML은 Hyper Text Markup Language(하이퍼 텍스트 마크업 랭귀지)의 약자
  • 마크업 언어는 일종의 문법
  • 웹페이지 우클릭 → ‘페이지 소스 보기’ 혹은 f12를 누르면 볼 수 있음

원본 노션 정리 글

 

파이썬 웹 크롤링 교재 #1

개발 환경

probable-legume-162.notion.site

 

728x90