본문 바로가기
판다스/함수 cheat sheet

[pandas] read_html

by 김판다t 2023. 1. 7.
pd.read_html(io, match='.+', header=None, index_col=None)

 

 

웹페이지의 테이블을 데이터프레임으로 불러오는 함수. 리스트에 데이터프레임을 담아준다.

 

 

io

웹페이지의 경로명

 

 

match (인수는 문자열 혹은 정규표현식 / 기본값은 ‘.+’ )

테이블 중에서 특정 문자열을 포함한 테이블을 지정하는 매개변수. 기본값은 빈 문자열을 제외한 모든 문자열이다.(지정하지 않으면 문자열이 포함된 모든 테이블을 가져온다)

 

 

header (인수는 정수, 정수의 리스트 / 기본값은 None)

columns를 지정하는 매개변수. 리스트로 지정하면 멀티 인덱스인 columns가 된다. 

 

 

index_col (인수는 정수, 정수의 리스트 / 기본값은 None)

index를 지정하는 매개변수. 지정하지 않으면 RangeIndex가 index로 부여된다. 리스트로 지정하면 멀티 인덱스인 index가 된다.

 

 

 

그외 많은 매개변수들이 있다. 더 궁금하면 아래 링크를 참고

 

https://pandas.pydata.org/docs/reference/api/pandas.read_html.html

'판다스 > 함수 cheat sheet' 카테고리의 다른 글

[pandas] rank  (0) 2023.01.16
[pandas] drop  (0) 2023.01.07
[pandas] to_excel  (0) 2022.12.30
[pandas] rename  (0) 2022.12.30
[pandas] concat  (0) 2022.12.30