본문 바로가기
판다스/판다스 팁

[pandas] 집계 함수

by 김판다t 2024. 10. 21.

판다스의 집계 함수

 

집계 함수란?

 

집계 함수(aggregation function)는 데이터를 군집으로 묶어 요약된 통계 정보를 제공하는 함수입니다. 주로 사용하는 집계 함수로는 합(sum), 평균(mean), 표준편차(std), 최댓값(max), 최솟값(min), 중간값(median) 등이 있으며, 이러한 함수들은 데이터의 특성을 파악하는 데 유용합니다.

 

 

판다스의 집계 함수

 

판다스에서 제공하는 다양한 집계 함수는 아래와 같습니다. 

       
함수 기능 함수 기능
sum 전체 합 cumsum 누적 합
prod 전체 곱 cumprod 누적 곱
max 최댓값 cummax 누적 최대
min 최솟값 cummin 누적 최소
count 개수 cumcount 누적 개수(그룹화)
mean 평균 first 첫 번째 값(그룹화)
std 표준편차 last 마지막 값(그룹화)
var 분산 all 모두 True라면 True(불리언 연산)
median 중간값 any 하나라도 True라면 True(불리언 연산)
quantile 분위수 idxmax 최댓값의 색인
mode 최빈값(가장 빈도가 높은 값) idxmin 최솟값의 색인
corr 상관관계 skew 왜도(데이터의 비대칭 정도)
cov 공분산 kurt 첨도(데이터의 꼬리 부분이 얼마나 두꺼운지)

 

대부분의 집계 함수는 데이터를 요약하여 차원을 축소하는 역할을 합니다. 예를 들어 sum, mean, max, min 등은 하나의 결과값을 반환하여 데이터를 압축해 보여줍니다. 그러나 cumsum 함수와 같이 차원을 축소하지 않고 누적된 값을 반환하는 함수도 존재합니다. 이러한 함수들은 데이터의 크기를 유지하면서 그 안의 값을 누적하여 계산합니다.

 

이와 같은 함수들은 구분하여 누적 통계 함수라고 지칭하기도 합니다. 이때 cumsum, cumprod, cummax, cummin 등의 함수는 누적된 결과를 보여주며, 데이터의 개별 값들을 유지하면서 각 값의 누적 통계를 제공합니다. 엄밀히 말해, 차원을 축소하는 함수만을 좁은 의미로 집계 함수로 정의할 수도 있지만, 넓은 의미에서는 누적 통계 함수 역시 집계 함수의 범주에 포함시킬 수 있습니다.


교보문고 구매 페이지, 알라딘 구매 페이지yes24 구매 페이지