[Python] 판다스 groupby에 쓰이는 집계함수 모음 (sum, mean, min, max / agg...)

🖥️ IT, 컴퓨터/🐍 Python

김 홍시 2024. 6. 11. 13:25

Pandas의 groupby 객체에 사용할 수 있는 다양한 집계 함수들이 있습니다. 이 함수들은 그룹화된 데이터에 대해 여러 가지 통계적 계산을 수행할 수 있습니다. 주요 집계 함수들은 다음과 같습니다:

sum(): 각 그룹의 합을 계산합니다.
mean(): 각 그룹의 평균을 계산합니다.
median(): 각 그룹의 중앙값을 계산합니다.
min(): 각 그룹의 최소값을 계산합니다.
max(): 각 그룹의 최대값을 계산합니다.
count(): 각 그룹의 요소 개수를 계산합니다.
size(): 각 그룹의 크기(요소 수)를 계산합니다.
std(): 각 그룹의 표준 편차를 계산합니다.
var(): 각 그룹의 분산을 계산합니다.
sem(): 각 그룹의 표준 오차를 계산합니다.
describe(): 각 그룹의 여러 통계 요약을 제공합니다 (count, mean, std, min, 25%, 50%, 75%, max).
first(): 각 그룹의 첫 번째 값을 반환합니다.
last(): 각 그룹의 마지막 값을 반환합니다.
nth(n): 각 그룹의 n번째 값을 반환합니다.
agg(): 여러 함수를 동시에 적용할 수 있습니다. 예: agg(['mean', 'min', 'max'])
apply(): 사용자 정의 함수를 적용할 수 있습니다.

또한, 사용자가 직접 정의한 함수를 apply() 메소드를 통해 그룹화된 데이터에 적용할 수도 있습니다. 예를 들어:

df.groupby('neighbourhood_group').apply(lambda x: x['price'].mean() + x['price'].std())

위와 같이 하면, 각 그룹의 평균에 표준 편차를 더한 값을 계산할 수 있습니다.

집계 함수를 사용할 때는 데이터의 특성과 분석 목적에 맞는 함수를 선택하여 사용하는 것이 중요합니다.