[pandas] 집계 함수

판다스의 집계 함수

집계 함수란?

집계 함수(aggregation function)는 데이터를 군집으로 묶어 요약된 통계 정보를 제공하는 함수입니다. 주로 사용하는 집계 함수로는 합(sum), 평균(mean), 표준편차(std), 최댓값(max), 최솟값(min), 중간값(median) 등이 있으며, 이러한 함수들은 데이터의 특성을 파악하는 데 유용합니다.

판다스의 집계 함수

판다스에서 제공하는 다양한 집계 함수는 아래와 같습니다.


함수	기능	함수	기능
sum	전체 합	cumsum	누적 합
prod	전체 곱	cumprod	누적 곱
max	최댓값	cummax	누적 최대
min	최솟값	cummin	누적 최소
count	개수	cumcount	누적 개수(그룹화)
mean	평균	first	첫 번째 값(그룹화)
std	표준편차	last	마지막 값(그룹화)
var	분산	all	모두 True라면 True(불리언 연산)
median	중간값	any	하나라도 True라면 True(불리언 연산)
quantile	분위수	idxmax	최댓값의 색인
mode	최빈값(가장 빈도가 높은 값)	idxmin	최솟값의 색인
corr	상관관계	skew	왜도(데이터의 비대칭 정도)
cov	공분산	kurt	첨도(데이터의 꼬리 부분이 얼마나 두꺼운지)

대부분의 집계 함수는 데이터를 요약하여 차원을 축소하는 역할을 합니다. 예를 들어 sum, mean, max, min 등은 하나의 결과값을 반환하여 데이터를 압축해 보여줍니다. 그러나 cumsum 함수와 같이 차원을 축소하지 않고 누적된 값을 반환하는 함수도 존재합니다. 이러한 함수들은 데이터의 크기를 유지하면서 그 안의 값을 누적하여 계산합니다.

이와 같은 함수들은 구분하여 누적 통계 함수라고 지칭하기도 합니다. 이때 cumsum, cumprod, cummax, cummin 등의 함수는 누적된 결과를 보여주며, 데이터의 개별 값들을 유지하면서 각 값의 누적 통계를 제공합니다. 엄밀히 말해, 차원을 축소하는 함수만을 좁은 의미로 집계 함수로 정의할 수도 있지만, 넓은 의미에서는 누적 통계 함수 역시 집계 함수의 범주에 포함시킬 수 있습니다.

교보문고 구매 페이지, 알라딘 구매 페이지, yes24 구매 페이지

'판다스 > 판다스 팁' 카테고리의 다른 글

[pandas] 그룹별로 오름차순과 내림차순을 다르게 설정해 순위 매기기 (3)	2024.10.24
[pandas] 수학적 연산 (2)	2024.10.20
[pandas] 기존 열을 수정하면서 새로운 열도 추가하는 방법 (0)	2024.05.22
[pandas] 기존 데이터 프레임의 상위 2행을 멀티 인덱스로 설정하기 (0)	2024.05.22
[pandas] 그룹의 순서를 유지하고 그룹 내에서 정렬하기 (0)	2024.05.13

엑셀투파이썬

[pandas] 집계 함수

판다스의 집계 함수

'판다스 > 판다스 팁' 카테고리의 다른 글

티스토리툴바

[pandas] 집계 함수

판다스의 집계 함수

'판다스 > 판다스 팁' 카테고리의 다른 글

관련글

티스토리툴바