간단한 파이썬 웹사이트 크롤링(스크래핑) 예제 코드
- 20-01-24
- 2,815 회
- 0 건
아래 코드는 engadget.com의 최신 기사 타이틀을 가져오는 간단한 파이썬 크롤링 코드입니다.
# engadget 스크래핑
from bs4 import BeautifulSoup
from pprint import pprint
import requests
#웹 페이지를 열고 소스코드를 읽어오는 작업
html = requests.get("https://www.engadget.com/")
soup = BeautifulSoup(html.text, 'html.parser')
html.close()
# 제목 영역 추출
data=soup.findAll('span',"th-underline")
title_list = [ t.text for t in data]
title_list = [item.strip() for item in title_list if str(item)] # 줄바꿈 태그 삭제
pprint(title_list)
Data