본문 바로가기
판다스 강의(유튜브)/분류되지 않은 강의들

[pandas] 판다스로 하는 웹크롤링(crawling)

by 김판다t 2022. 2. 23.

판다스로 웹크롤링을 해보는 강의입니다

표데이터는 정말 쉽게 가져올수있어요

 

 

 

 

크롤링에 쓰인 웹페이지 주소 링크입니다

https://sports.news.naver.com/kbaseball/record/index?category=kbo&year=2021 

 

네이버 스포츠

스포츠의 시작과 끝!

sports.news.naver.com

 

 

 

전체코드입니다

 

 

import pandas as pd

#공통인 url부분을 변수로 선언
url = "https://sports.news.naver.com/kbaseball/record/index?category=kbo&year="

df = pd.DataFrame([]) # for문의 결과물을 담을 빈데이터프레임
for i in range(2015, 2022): # 2015 이상 2022 미만의 모든 정수를 리스트로
    df1 = pd.read_html(url + str(i))[0] # i문자형으로, [0]으로 인덱싱
    df1["연도"] = str(i) # 연도 항목이 없어서 열로 추가
    df = pd.concat([df, df1])
df = df.replace({"kt":"KT", "SK":"SSG", "넥센":"키움"}) # 팀명이 바뀐팀들의 팀명 수정
df.pivot(values="순위", index="연도", columns="팀")
df.pivot(values="팀", index="연도", columns="순위")