목록웹 크롤링 (5)
기록방
# sovled.ac 레벨 별 문제리스트 파일 저장(레벨별 공백 구분) import urllib.request from bs4 import BeautifulSoup import time import random def find_problem(url): print(url) temp = set() # 너무 많이 접속하면 차단되므로 이상한 접속이 아님을 헤더로 밝힘 header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'} # 접속 부하 방지로 사이트 차단 방지를 위해 사용자 클릭 처럼 랜덤 sleep rand_value..
💡 백준 그룹에서 문제 낼 때, 다른 구성원이 이미 풀 었던 문제인지 확인하기 어렵다. 웹 크롤링으로 해결해보자! urllib.request 와 BeautifulSoup 를 이용해 웹 크롤링과 파싱을 진행한다. 옵션을 선택해 기능을 사용할 수 있도록 한다. 웹 크로링 매번 실행 후 문제 개수 출력 입력한 문제가 크롤링 된 목록에 포함 되는지 출력 무한 반복문을 활용하고, 종료와 오타방지 기능 추가 # 백준에서 이미 풀은 문제를 조회해, 아직 안 풀은 문제인지 출력하는 프로그램 import urllib.request from bs4 import BeautifulSoup def find_problem(find_id): # 너무 많이 접속하면 차단되므로 이상한 접속이 아님을 헤더로 밝힘 header = {'U..
"한입에 웹 크롤링 프알못의 파이썬 데이터 수집 자동화 한 방에 끝내기" 한입에 웹 크롤링 - 교보문고 프알못의 파이썬 데이터 수집 자동화 한 방에 끝내기 | 인터넷에서 데이터를 수집하여 받아오는 것을 크롤링 또는 스크래핑이라고 하고, 크롤링을 하는 프로그램을 크롤러라고 합니다. 웹 크롤 www.kyobobook.co.kr 7장 쇼핑몰 크롤링 대상 사이트 https://jolse.com/ 라는 화장품 쇼핑몰 [SKINCARE → Moisturizers → Toners & Mists] : https://jolse.com/category/toners-mists/1019/ 아래쪽에 페이지 넘길 수 있음 (1~10) 해당 쇼핑몰사이트가 크롤링 접근을 막아놨음. 무신사로 대체 : 무신사 데닝 펜츠 https://..
"한입에 웹 크롤링 프알못의 파이썬 데이터 수집 자동화 한 방에 끝내기" 한입에 웹 크롤링 - 교보문고 프알못의 파이썬 데이터 수집 자동화 한 방에 끝내기 | 인터넷에서 데이터를 수집하여 받아오는 것을 크롤링 또는 스크래핑이라고 하고, 크롤링을 하는 프로그램을 크롤러라고 합니다. 웹 크롤 www.kyobobook.co.kr 5장 크롤러 만들기 인터넷에서 데이터를 수집하여 받아오는 것을 크롤링 또는 스크랩핑이라고 한다(정확히는 차이가 있음) 크롤러 : 크롤링을 하는 프로그램 크롬 설치 크롤러를 만들때 크롬 개발자 도구가 필요함 urllib 패키지 urllib는 파이썬에서 인터넷에서 데이터를 받아 오는 기능들이 들어 있는 패키지 기본 urllib는 내장되어 있어 import하면 바로 사용 가능 그 외 다른 ..
"한입에 웹 크롤링 프알못의 파이썬 데이터 수집 자동화 한 방에 끝내기" 한입에 웹 크롤링 - 교보문고 프알못의 파이썬 데이터 수집 자동화 한 방에 끝내기 | 인터넷에서 데이터를 수집하여 받아오는 것을 크롤링 또는 스크래핑이라고 하고, 크롤링을 하는 프로그램을 크롤러라고 합니다. 웹 크롤 www.kyobobook.co.kr 개발 환경 교재 파이참 python 3.6 mac, window10 내 컴퓨터 파이참 python 3.10 window10 3장 파이썬 기초 라이브러리(Library) : 다른 사람들이 만들어 놓은 코드. 패키지(Package)라고도 함 ex) beautifulsoup(뷰티풀솝), numpy(넘파이), pandas(판다스), matplot(맷플롯) 등 → 파이참(PyCharm)은 다른..