[pandas] drop_duplicates
중복된 행을 삭제하는 함수 import pandas as pd data1 = {'회차': [1, 1, 1, 2, 2], '이름': ['김판다', '김판다', '강승주', '조민영', '김판다'], '점수': [680, 680, 880, 620, 750]} df = pd.DataFrame(data1) drop_duplicates 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.drop_duplicates(subset=None, keep='first') subset (열 이름 또는 열이름의 배열) 중복을 확인할 열을 지정하는 매개변수. 기본값은 모든 열에서 중복이어야 중복으로 처리된다. keep ('first', 'last', False / 기본값 'first..
2023. 7. 16.
[pandas] replace
데이터 프레임이나 시리즈의 각 셀을 치환하는 함수 import pandas as pd data1 = {'홈팀': ['서독', '대한민국', '브라질', '소련', '대한민국'], '원정팀': ['대한민국', '서독', '소련', '브라질', '브라질'], '홈팀골': [3, 1, 4, 2, 0], '원정팀골': [0, 2, 1, 2, 2]} df = pd.DataFrame(data1) replace 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.replace(to_replace=None, value=None, regex=False) to_replace 이전 값을 입력하는 매개변수. 이전 값과 새로운 값의 매퍼(여기서는 딕셔너리)도 입력 가능하다. valu..
2023. 7. 16.
[pandas] qcut
백분위수를 기준으로 구간을 나누어 범주화(categorization)하는 함수 import pandas as pds = pd.Series({'가': 90, '나': 10, '다': 50, '라': 95}) pandas qcut pd.qcut(x, q, labels=None) 인자 x 백분위수로 나눠 범주화를 수행할 배열을 입력. 반드시 1차원이어야 한다. q 구간을 나누는 백분위수 기준을 입력받는 매개변수정수 : 정수만큼의 균등한 구간으로 분할한다. ex1) 2를 입력하면 하위 50%와 상위 50%의 2개의 구간으로 분할한다.정렬된 배열 : ex2) [0, 0.25, 0.75, 1] 이라면 백분위로 최소 ~ 25%, 25% ~ 75%, 75% ~ 최대 까지의 3개의 구간으로 분할 labels각..
2023. 7. 6.