수치를 기준으로 구간을 나누어 범주화(categorization)하는 함수
import pandas as pd
{'가': 86, '나': 79, '다': 93, '라': 80}
pandas cut
pd.cut(x, bins, right=True, labels=None)
x
범주화를 수행할 배열. 반드시 1차원이어야 한다
bins
구간을 나누는 기준
- 정수 : 정수만큼의 균등한 구간으로 분할한다. ex1) 2를 입력하면 구간이 균등한 2개의 구간으로 분할한다
- 정렬된 배열 : ex2) [0, 20, 40, 60] 이라면 0 ~ 20, 20 ~ 40, 40 ~ 60 까지의 3개의 구간으로 분할한다
right
구간에서 우측 경계를 포함할지 여부를 결정하는 매개변수
ex2의 경우에 True라면 우측 경계를 해당 구간에 포함하므로 0초과 20이하, 20초과 40이하, 40초과 60이하로 분할한다
labels (인수는 배열 또는 False / 기본값은 None)
구간의 이름을 지정하는 매개변수. False는 가장 왼쪽 구간부터 0, 1, 2, 3... 으로 부여한다
기본값은 구간의 경계를 구간의 이름으로 부여한다.
ex2의 경우라면 (0, 20], (20, 40], (40. 60] 으로 부여한다
반드시 bins 로 나누어진 구간수와 같아야 한다
그외 많은 매개변수들이 있다. 더 궁금하면 아래 링크를 참고
https://pandas.pydata.org/docs/reference/api/pandas.cut.html
'판다스 > 함수 cheat sheet' 카테고리의 다른 글
[pandas] sort_index (0) | 2023.02.06 |
---|---|
[pandas] value_counts (0) | 2023.02.06 |
[pandas] mask (0) | 2023.02.04 |
[pandas] 불리언 인덱싱(boolean indexing) (0) | 2023.02.04 |
[pandas] astype (0) | 2023.02.03 |