판다스의 집계 함수
집계 함수란?
집계 함수(aggregation function)는 데이터를 군집으로 묶어 요약된 통계 정보를 제공하는 함수입니다. 주로 사용하는 집계 함수로는 합(sum), 평균(mean), 표준편차(std), 최댓값(max), 최솟값(min), 중간값(median) 등이 있으며, 이러한 함수들은 데이터의 특성을 파악하는 데 유용합니다.
판다스의 집계 함수
판다스에서 제공하는 다양한 집계 함수는 아래와 같습니다.
함수 | 기능 | 함수 | 기능 |
sum | 전체 합 | cumsum | 누적 합 |
prod | 전체 곱 | cumprod | 누적 곱 |
max | 최댓값 | cummax | 누적 최대 |
min | 최솟값 | cummin | 누적 최소 |
count | 개수 | cumcount | 누적 개수(그룹화) |
mean | 평균 | first | 첫 번째 값(그룹화) |
std | 표준편차 | last | 마지막 값(그룹화) |
var | 분산 | all | 모두 True라면 True(불리언 연산) |
median | 중간값 | any | 하나라도 True라면 True(불리언 연산) |
quantile | 분위수 | idxmax | 최댓값의 색인 |
mode | 최빈값(가장 빈도가 높은 값) | idxmin | 최솟값의 색인 |
corr | 상관관계 | skew | 왜도(데이터의 비대칭 정도) |
cov | 공분산 | kurt | 첨도(데이터의 꼬리 부분이 얼마나 두꺼운지) |
대부분의 집계 함수는 데이터를 요약하여 차원을 축소하는 역할을 합니다. 예를 들어 sum, mean, max, min 등은 하나의 결과값을 반환하여 데이터를 압축해 보여줍니다. 그러나 cumsum 함수와 같이 차원을 축소하지 않고 누적된 값을 반환하는 함수도 존재합니다. 이러한 함수들은 데이터의 크기를 유지하면서 그 안의 값을 누적하여 계산합니다.
이와 같은 함수들은 구분하여 누적 통계 함수라고 지칭하기도 합니다. 이때 cumsum, cumprod, cummax, cummin 등의 함수는 누적된 결과를 보여주며, 데이터의 개별 값들을 유지하면서 각 값의 누적 통계를 제공합니다. 엄밀히 말해, 차원을 축소하는 함수만을 좁은 의미로 집계 함수로 정의할 수도 있지만, 넓은 의미에서는 누적 통계 함수 역시 집계 함수의 범주에 포함시킬 수 있습니다.
교보문고 구매 페이지, 알라딘 구매 페이지, yes24 구매 페이지
'판다스 > 판다스 팁' 카테고리의 다른 글
[pandas] 그룹별로 오름차순과 내림차순을 다르게 설정해 순위 매기기 (3) | 2024.10.24 |
---|---|
[pandas] 수학적 연산 (2) | 2024.10.20 |
[pandas] 기존 열을 수정하면서 새로운 열도 추가하는 방법 (0) | 2024.05.22 |
[pandas] 기존 데이터 프레임의 상위 2행을 멀티 인덱스로 설정하기 (0) | 2024.05.22 |
[pandas] 그룹의 순서를 유지하고 그룹 내에서 정렬하기 (0) | 2024.05.13 |