[pandas] crosstab
빈도수를 집계해 교차표로 만든다. import pandas as pddata = {'반': ['A', 'A', 'A', 'B', 'B', 'B'], '성별': ['남', '여', '여', '여', '남', '남']}df = pd.DataFrame(data) 인자(parameter) index (시리즈 또는 시리즈의 리스트)행으로 구분될 그룹 columns (시리즈 또는 시리즈의 리스트)열로 구분될 그룹 공식문서 https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html 유튜브에서 판다스 강의 중입니다 https://www.youtube.com/@KimPandas
2023. 7. 30.
[pandas] clip
임계값을 적용해 이상치(outlier)를 처리하는 함수 import pandas as pd data1 = {'국어': {'A': 89, 'B': 29, 'C': 40, 'D': 29}, '영어': {'A': 4, 'B': 46, 'C': 19, 'D': 91}, '수학': {'A': 74, 'B': 83, 'C': 60, 'D': 76}} df = pd.DataFrame(data1) df.clip(lower=None, upper=None) 인자(parameter) lower (실수 혹은 배열) 최솟값으로 적용할 임계값. 배열을 입력하면 열마다 다르게 적용한다. upper (실수 혹은 배열) 최댓값으로 적용할 임계값. 배열을 입력하면 열마다 다르게 적용한다. 공식문서 https://pandas.pydata..
2023. 7. 16.
[pandas] duplicated
중복 여부를 확인하는 함수 (중복일 때 True, 아닐 때 False를 반환한다) import pandas as pd data1 = {'회차': [1, 1, 1, 2, 2], '이름': ['김판다', '김판다', '강승주', '조민영', '김판다'], '점수': [680, 680, 880, 620, 750]} df = pd.DataFrame(data1) drop_duplicates 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default) df.duplicated(subset=None, keep='first') subset (열 이름 또는 열이름의 배열) 중복을 체크할 열을 지정하는 매개변수. 기본값은 모든 열에서 중복이어야 중복으로 처리된다. keep ('first', ..
2023. 7. 16.