[pandas] drop_duplicates

중복된 행을 삭제하는 함수

import pandas as pd
data1 = {'회차': [1, 1, 1, 2, 2], 
         '이름': ['김판다', '김판다', '강승주', '조민영', '김판다'], 
         '점수': [680, 680, 880, 620, 750]}
df = pd.DataFrame(data1)

drop_duplicates 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default)

df.drop_duplicates(subset=None, keep='first')

subset (열 이름 또는 열이름의 배열)

중복을 확인할 열을 지정하는 매개변수. 기본값은 모든 열에서 중복이어야 중복으로 처리된다.

keep ('first', 'last', False / 기본값 'first')

중복일 때 어떤 행을 유지할지 결정하는 매개변

'first' : 처음 나온 값을 남기고 나머지를 삭제한다. 위의 예에서 0행이 남고 1행이 삭제되었다.
'last' : 마지막에 나온 값을 남기고 나머지를 삭제한다
False : 모든 값을 삭제한다

duplicated 함수와 유사한 특성을 가진다

공식문서

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html

pandas.DataFrame.drop_duplicates — pandas 2.0.3 documentation

next pandas.DataFrame.droplevel

pandas.pydata.org

유튜브에서 판다스 강의 중입니다

https://www.youtube.com/@KimPandas

'판다스 > 함수 cheat sheet' 카테고리의 다른 글

[pandas] clip (0)	2023.07.16
[pandas] duplicated (0)	2023.07.16
[pandas] replace (0)	2023.07.16
[pandas] qcut (0)	2023.07.06
[pandas] pct_change (0)	2023.07.06

엑셀투파이썬

[pandas] drop_duplicates

'판다스 > 함수 cheat sheet' 카테고리의 다른 글

티스토리툴바

[pandas] drop_duplicates

'판다스 > 함수 cheat sheet' 카테고리의 다른 글

관련글

티스토리툴바