pd.read_html(io, match='.+', header=None, index_col=None)
웹페이지의 테이블을 데이터프레임으로 불러오는 함수. 리스트에 데이터프레임을 담아준다.
io
웹페이지의 경로명
match (인수는 문자열 혹은 정규표현식 / 기본값은 ‘.+’ )
테이블 중에서 특정 문자열을 포함한 테이블을 지정하는 매개변수. 기본값은 빈 문자열을 제외한 모든 문자열이다.(지정하지 않으면 문자열이 포함된 모든 테이블을 가져온다)
header (인수는 정수, 정수의 리스트 / 기본값은 None)
columns를 지정하는 매개변수. 리스트로 지정하면 멀티 인덱스인 columns가 된다.
index_col (인수는 정수, 정수의 리스트 / 기본값은 None)
index를 지정하는 매개변수. 지정하지 않으면 RangeIndex가 index로 부여된다. 리스트로 지정하면 멀티 인덱스인 index가 된다.
그외 많은 매개변수들이 있다. 더 궁금하면 아래 링크를 참고
https://pandas.pydata.org/docs/reference/api/pandas.read_html.html
'판다스 > 함수 cheat sheet' 카테고리의 다른 글
[pandas] rank (0) | 2023.01.16 |
---|---|
[pandas] drop (0) | 2023.01.07 |
[pandas] to_excel (0) | 2022.12.30 |
[pandas] rename (0) | 2022.12.30 |
[pandas] concat (0) | 2022.12.30 |