2020. 8. 4. 12:20ㆍpython/crawling
# 파이썬 크롤링 첫 번째 : 크롤링 핵심 코드 패턴!
오늘은 처음으로 파이썬 크롤링 공부를 시작했다.
아직 파이썬 문법도 어색한 상황이지만, 실제로 무언가를 해봐야 빠르게 배울 수 있기 때문에
크롤링 공부를 시작했다.
아직 많이 어렵다.
오늘 공부한 내용을 다시 적어보면서 기억해봐야겠다.
인프런이라는 사이트에서
잔재미 코딩님의 파이썬 입문과 크롤링 기초 부트캠프 수업을 듣고 있다.
개인적으로는 코딩을 처음 접하는 사람들도 이해하기
쉽고 재미있게 수업을 알려주신다.
크롤링 핵심 코드 패턴
1. 라이브러리 임포트
import requests
from bs4 import BeautifulSoup
2. 웹페이지 가져오기
res = requests.get(' 크롤링할 주소')
3. 웹페이지 파싱하기
soup = BeautifulSoup(res.content, 'html.parser')
4. 필요한 데이터 추출하기
mydata = soup.find('필요한 데이터 추출하는 코드 넣기')
5. 추출한 데이터 활용하기
print(mydata.get_text())
HTML 파일 확인해보기
-> 웹브라우저로 확인하기 : 오른쪽 클릭 + 페이지 소스 보기(크롬에서)
위의 코드에서 크롤링할 주소(파란색)와 필요한 데이터 추출하는 코드 넣기(빨간색)만
변경해서 사용하면 기초 크롤링이 가능하다.
아직 HTML과 CSS에서 어디에 원하는 데이터가 있는지 잘 모른다.
다음으로는 HTML의 기초를 공부해서, 원하는 데이터를 찾는 법을 공부한다.
오늘은 여기까지!
'python > crawling' 카테고리의 다른 글
python 네 번째 일기 : 크롤링 기초(crawling basic) (0) | 2020.08.11 |
---|---|
python 세 번째 일기 : 크롤링 기초(crawling basic) (0) | 2020.08.06 |
python 두 번째 일기 : 크롤링 기초 (crawling basic) (0) | 2020.08.04 |