본문 바로가기
판다스/함수 cheat sheet

[pandas] duplicated

by 김판다t 2023. 7. 16.

중복 여부를 확인하는 함수

(중복일 때 True, 아닐 때 False를 반환한다)

 

import pandas as pd
data1 = {'회차': [1, 1, 1, 2, 2], 
         '이름': ['김판다', '김판다', '강승주', '조민영', '김판다'], 
         '점수': [680, 680, 880, 620, 750]}
df = pd.DataFrame(data1)

 

 

 

 

 

drop_duplicates 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default)

 

df.duplicated(subset=None, keep='first')

 

subset (열 이름 또는 열이름의 배열)

중복을 체크할 열을 지정하는 매개변수. 기본값은 모든 열에서 중복이어야 중복으로 처리된다.

keep ('first', 'last', False / 기본값 'first')

중복일때 어떤 값을 False로 남길지 결정하는 매개변수

  • 'first' : 처음 나온 값은 False가 되고 나머지가 True가 된다. 위의 예에서 0행은 False 1행은 False가 되었다
  • 'last' : 마지막에 나온 값이 False가 되고 나머지가 True가 된다
  • False : 모든 값이 True가 된다

drop_duplicates 함수의 keep과 동일하다

 

 

 

공식문서

 

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.duplicated.html

 

 

 

 

 

유튜브에서 판다스 강의 중입니다

 

https://www.youtube.com/@KimPandas

 

 

 

 

'판다스 > 함수 cheat sheet' 카테고리의 다른 글

[pandas] crosstab  (0) 2023.07.30
[pandas] clip  (0) 2023.07.16
[pandas] drop_duplicates  (0) 2023.07.16
[pandas] replace  (0) 2023.07.16
[pandas] qcut  (0) 2023.07.06