[pandas] cut
수치를 기준으로 구간을 나누어 범주화(categorization)하는 함수 import pandas as pd{'가': 86, '나': 79, '다': 93, '라': 80} pandas cut pd.cut(x, bins, right=True, labels=None) x 범주화를 수행할 배열. 반드시 1차원이어야 한다 bins 구간을 나누는 기준정수 : 정수만큼의 균등한 구간으로 분할한다. ex1) 2를 입력하면 구간이 균등한 2개의 구간으로 분할한다정렬된 배열 : ex2) [0, 20, 40, 60] 이라면 0 ~ 20, 20 ~ 40, 40 ~ 60 까지의 3개의 구간으로 분할한다 right구간에서 우측 경계를 포함할지 여부를 결정하는 매개변수ex2의 경우에 True라면 우측 경계를 ..
2023. 2. 4.
[pandas] 불리언 인덱싱(boolean indexing)
import pandas as pd data = [[85, 96, 94], [79, 87, 94], [93, 85, 73], [81, 84, 88]] df = pd.DataFrame(data, index=list('ABCD'), columns=['국어', '영어', '수학']) 불리언 인덱싱은 함수는 아니지만 판다스에서 자주 사용하는 기법이다 불리언 인덱싱에 들어가는 배열은 리스트가 아니라 시리즈도 가능하다 시리즈는 단순 연산만으로 쉽게 불리언(boolean) 시리즈로 만들 수 있으므로 이 특성과 합쳐져 불리언 인덱싱은 판다스의 필터링으로 쓰인다 이때 조건문으로 쓰인 아래의 코드는 df['국어'] > 80 위 그림에서 보듯 그저 True 또는 False로 이루어진 시리즈임을 잊지말자 편의상 판다스에서 조..
2023. 2. 4.
[pandas] rank
import pandas as pds = pd.Series([90, 70, 80, 60], index=list('ABCD'))s.rank() pandas rank rank 함수의 주요 매개변수(parameter)와 인수(argument), 기본값(default)df.rank(method='average', ascending=True, pct=False) 데이터 프레임이나 시리즈의 순위를 매기는 함수 method동점자 처리방식을 지정하는 매개변수 예시) 90, 89, 89, 88을 내림차순으로 순위를 매기자 (ascending=False)'average': 평균 순위, 기본값, 예시는 1, 2.5, 2.5, 4 부여'min': 최소 순위, 예시는 1, 2, 2, 4 부여'max': 최대 순위, 예시는 ..
2023. 1. 16.