🖥️ IT, 컴퓨터/🐍 Python
[Python] 판다스 groupby에 쓰이는 집계함수 모음 (sum, mean, min, max / agg...)
김 홍시
2024. 6. 11. 13:25
반응형
Pandas의 groupby
객체에 사용할 수 있는 다양한 집계 함수들이 있습니다. 이 함수들은 그룹화된 데이터에 대해 여러 가지 통계적 계산을 수행할 수 있습니다. 주요 집계 함수들은 다음과 같습니다:
sum()
: 각 그룹의 합을 계산합니다.mean()
: 각 그룹의 평균을 계산합니다.median()
: 각 그룹의 중앙값을 계산합니다.min()
: 각 그룹의 최소값을 계산합니다.max()
: 각 그룹의 최대값을 계산합니다.count()
: 각 그룹의 요소 개수를 계산합니다.size()
: 각 그룹의 크기(요소 수)를 계산합니다.std()
: 각 그룹의 표준 편차를 계산합니다.var()
: 각 그룹의 분산을 계산합니다.sem()
: 각 그룹의 표준 오차를 계산합니다.describe()
: 각 그룹의 여러 통계 요약을 제공합니다 (count, mean, std, min, 25%, 50%, 75%, max).first()
: 각 그룹의 첫 번째 값을 반환합니다.last()
: 각 그룹의 마지막 값을 반환합니다.nth(n)
: 각 그룹의 n번째 값을 반환합니다.agg()
: 여러 함수를 동시에 적용할 수 있습니다. 예:agg(['mean', 'min', 'max'])
apply()
: 사용자 정의 함수를 적용할 수 있습니다.
또한, 사용자가 직접 정의한 함수를 apply()
메소드를 통해 그룹화된 데이터에 적용할 수도 있습니다. 예를 들어:
df.groupby('neighbourhood_group').apply(lambda x: x['price'].mean() + x['price'].std())
위와 같이 하면, 각 그룹의 평균에 표준 편차를 더한 값을 계산할 수 있습니다.
집계 함수를 사용할 때는 데이터의 특성과 분석 목적에 맞는 함수를 선택하여 사용하는 것이 중요합니다.
반응형