[pandas] clip
임계값을 적용해 이상치(outlier)를 처리하는 함수 import pandas as pd data1 = {'국어': {'A': 89, 'B': 29, 'C': 40, 'D': 29}, '영어': {'A': 4, 'B': 46, 'C': 19, 'D': 91}, '수학': {'A': 74, 'B': 83, 'C': 60, 'D': 76}} df = pd.DataFrame(data1) df.clip(lower=None, upper=None) 인자(parameter) lower (실수 혹은 배열) 최솟값으로 적용할 임계값. 배열을 입력하면 열마다 다르게 적용한다. upper (실수 혹은 배열) 최댓값으로 적용할 임계값. 배열을 입력하면 열마다 다르게 적용한다. 공식문서 https://pandas.pydata..
2023. 7. 16.
[pandas] duplicated
중복 여부를 확인하는 함수 (중복일 때 True, 아닐 때 False를 반환한다) import pandas as pd data1 = {'회차': [1, 1, 1, 2, 2], '이름': ['김판다', '김판다', '강승주', '조민영', '김판다'], '점수': [680, 680, 880, 620, 750]} df = pd.DataFrame(data1) drop_duplicates 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.duplicated(subset=None, keep='first') subset (열 이름 또는 열이름의 배열) 중복을 체크할 열을 지정하는 매개변수. 기본값은 모든 열에서 중복이어야 중복으로 처리된다. keep ('first', ..
2023. 7. 16.
[pandas] drop_duplicates
중복된 행을 삭제하는 함수 import pandas as pd data1 = {'회차': [1, 1, 1, 2, 2], '이름': ['김판다', '김판다', '강승주', '조민영', '김판다'], '점수': [680, 680, 880, 620, 750]} df = pd.DataFrame(data1) drop_duplicates 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.drop_duplicates(subset=None, keep='first') subset (열 이름 또는 열이름의 배열) 중복을 확인할 열을 지정하는 매개변수. 기본값은 모든 열에서 중복이어야 중복으로 처리된다. keep ('first', 'last', False / 기본값 'first..
2023. 7. 16.
[pandas] replace
데이터 프레임이나 시리즈의 각 셀을 치환하는 함수 import pandas as pd data1 = {'홈팀': ['서독', '대한민국', '브라질', '소련', '대한민국'], '원정팀': ['대한민국', '서독', '소련', '브라질', '브라질'], '홈팀골': [3, 1, 4, 2, 0], '원정팀골': [0, 2, 1, 2, 2]} df = pd.DataFrame(data1) replace 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.replace(to_replace=None, value=None, regex=False) to_replace 이전 값을 입력하는 매개변수. 이전 값과 새로운 값의 매퍼(여기서는 딕셔너리)도 입력 가능하다. valu..
2023. 7. 16.