프로젝트/개인 프로젝트

파이썬 requests 크롤링

Heidong 2022. 5. 26. 23:32
반응형

* 프로젝트 개요

리퀘스트 크롤링
언어 Python 3.8.5
개발 툴 VSCode
프레임워크, 라이브러리 Python 3.8.5, Requests, BeautifulSoup, xlwings, pandas
DB  
개발 기간 2022.01.26 ~ 2022.01.31
개발 인원 1명

 

특이점 url 하나에 한페이지 + Ajax 2개 크롤링
 
고객의 요청으로 셀레니움 방식 금지
 
Ajax로 인한 동적 데이터 존재 -> 리퀘스트 방식으로 크롤링 불가능
 
-> XMLHttpRequest / Fetch API으로 받는 JSON 데이터 파싱
 
일부 값이 없는 데이터는 엑셀에 따로 표시 요청

 

 
26번 페이지 ~ 1176번 페이지 크롤링
 

 

앞으로 추가되는 페이지고려 3000url 크롤링 - 7

 

 
반응형