간단한 파이썬 웹사이트 크롤링(스크래핑) 예제 코드

아래 코드는 engadget.com의 최신 기사 타이틀을 가져오는 간단한 파이썬 크롤링 코드입니다.


# engadget 스크래핑 

from bs4 import BeautifulSoup

from pprint import pprint

import requests


#웹 페이지를 열고 소스코드를 읽어오는 작업

html = requests.get("https://www.engadget.com/")

soup = BeautifulSoup(html.text, 'html.parser')

html.close()


# 제목 영역 추출

data=soup.findAll('span',"th-underline")

title_list = [ t.text for t in data]

title_list = [item.strip() for item in title_list if str(item)] # 줄바꿈 태그 삭제 

pprint(title_list)

Data

번호 제목 글쓴이 조회 날짜
42
  • Presta
  • 6,723
  • 0
  • 01-24
6,723 01-24
열람
  • Presta
  • 2,816
  • 0
  • 01-24
2,816 01-24
40
  • Presta
  • 3,350
  • 0
  • 01-24
3,350 01-24
39
  • Presta
  • 1,909
  • 0
  • 11-08
1,909 11-08
38
  • Presta
  • 1,774
  • 0
  • 11-08
1,774 11-08
37
  • Presta
  • 1,761
  • 0
  • 11-07
1,761 11-07
36
  • Presta
  • 1,390
  • 0
  • 11-07
1,390 11-07
35
  • Presta
  • 1,813
  • 0
  • 11-07
1,813 11-07
34
  • Presta
  • 1,089
  • 0
  • 11-04
1,089 11-04
33
  • Presta
  • 1,568
  • 0
  • 10-01
1,568 10-01
32
  • Presta
  • 3,965
  • 0
  • 09-30
3,965 09-30
31
  • Presta
  • 4,480
  • 0
  • 09-30
4,480 09-30
30
  • Presta
  • 2,579
  • 0
  • 09-29
2,579 09-29
29
  • Presta
  • 5,020
  • 0
  • 09-29
5,020 09-29
28
  • Presta
  • 1,468
  • 0
  • 09-22
1,468 09-22
페이팔 바로가기 EMS 국제배송 바로가기
이베이 바로가기 아마존 바로가기
접속자집계
  • 오늘 : 67
  • 어제 : 58
  • 최대 : 471
  • 전체 : 131,604