[pandas] clip
임계값을 적용해 이상치(outlier)를 처리하는 함수 import pandas as pd data1 = {'국어': {'A': 89, 'B': 29, 'C': 40, 'D': 29}, '영어': {'A': 4, 'B': 46, 'C': 19, 'D': 91}, '수학': {'A': 74, 'B': 83, 'C': 60, 'D': 76}} df = pd.DataFrame(data1) df.clip(lower=None, upper=None) 인자(parameter) lower (실수 혹은 배열) 최솟값으로 적용할 임계값. 배열을 입력하면 열마다 다르게 적용한다. upper (실수 혹은 배열) 최댓값으로 적용할 임계값. 배열을 입력하면 열마다 다르게 적용한다. 공식문서 https://pandas.pydata..
2023. 7. 16.
[pandas] duplicated
중복 여부를 확인하는 함수 (중복일 때 True, 아닐 때 False를 반환한다) import pandas as pd data1 = {'회차': [1, 1, 1, 2, 2], '이름': ['김판다', '김판다', '강승주', '조민영', '김판다'], '점수': [680, 680, 880, 620, 750]} df = pd.DataFrame(data1) drop_duplicates 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.duplicated(subset=None, keep='first') subset (열 이름 또는 열이름의 배열) 중복을 체크할 열을 지정하는 매개변수. 기본값은 모든 열에서 중복이어야 중복으로 처리된다. keep ('first', ..
2023. 7. 16.
[pandas] drop_duplicates
중복된 행을 삭제하는 함수 import pandas as pd data1 = {'회차': [1, 1, 1, 2, 2], '이름': ['김판다', '김판다', '강승주', '조민영', '김판다'], '점수': [680, 680, 880, 620, 750]} df = pd.DataFrame(data1) drop_duplicates 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.drop_duplicates(subset=None, keep='first') subset (열 이름 또는 열이름의 배열) 중복을 확인할 열을 지정하는 매개변수. 기본값은 모든 열에서 중복이어야 중복으로 처리된다. keep ('first', 'last', False / 기본값 'first..
2023. 7. 16.
[pandas] replace
데이터 프레임이나 시리즈의 각 셀을 치환하는 함수 import pandas as pd data1 = {'홈팀': ['서독', '대한민국', '브라질', '소련', '대한민국'], '원정팀': ['대한민국', '서독', '소련', '브라질', '브라질'], '홈팀골': [3, 1, 4, 2, 0], '원정팀골': [0, 2, 1, 2, 2]} df = pd.DataFrame(data1) replace 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.replace(to_replace=None, value=None, regex=False) to_replace 이전 값을 입력하는 매개변수. 이전 값과 새로운 값의 매퍼(여기서는 딕셔너리)도 입력 가능하다. valu..
2023. 7. 16.
[pandas] qcut
백분위수를 기준으로 구간을 나누어 범주화(categorization)하는 함수 import pandas as pds = pd.Series({'가': 90, '나': 10, '다': 50, '라': 95}) pandas qcut pd.qcut(x, q, labels=None) 인자 x 백분위수로 나눠 범주화를 수행할 배열을 입력. 반드시 1차원이어야 한다. q 구간을 나누는 백분위수 기준을 입력받는 매개변수정수 : 정수만큼의 균등한 구간으로 분할한다. ex1) 2를 입력하면 하위 50%와 상위 50%의 2개의 구간으로 분할한다.정렬된 배열 : ex2) [0, 0.25, 0.75, 1] 이라면 백분위로 최소 ~ 25%, 25% ~ 75%, 75% ~ 최대 까지의 3개의 구간으로 분할 labels각..
2023. 7. 6.
[pandas] pct_change
바로 위 칸의 데이터와의 변동률을 구하는 함수 import pandas as pd data = [['01/01', 1000], ['01/02', 1200], ['01/03', 900], ['01/04', 1200], ['01/05', 1500]] df = pd.DataFrame(data, columns=['날짜', '가격']) pct_change 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.pct_change(periods=1, axis=0) periods (정수) 연산할 데이터와의 거리를 지정하는 매개변수 axis (0 or 1) 가로 방향으로 함수를 적용할 것인지 , 세로 방향으로 함수를 적용할 것인지 지정하는 매개변수 공식문서 https://pan..
2023. 7. 6.