🖥️ IT, 컴퓨터/🐍 Python

[Python] EDA 시 자주 사용되는 함수 모음

김 홍시 2025. 4. 14.
반응형

 

EDA(Exploratory Data Analysis) 단계에서 .shape 외에도 자주 사용되는 Python(pandas 중심) 함수들


✅ 1. 데이터 기본 정보 확인

함수 설명

df.head() 상위 5개 행 출력 (데이터 확인용)
df.tail() 하위 5개 행 출력
df.info() 열별 타입, 결측치, 데이터 개수 확인
df.describe() 수치형 변수의 기초통계량 (평균, 표준편차 등)
df.columns 컬럼명 확인
df.index 인덱스 확인
df.dtypes 각 열의 자료형 확인
df.memory_usage() 메모리 사용량 확인

✅ 2. 결측치 / 이상치 확인

함수 설명

df.isnull().sum() 열별 결측치 개수 확인
df.isna().mean() 열별 결측치 비율 확인
df[df.duplicated()] 중복 행 확인
df.nunique() 각 열의 고유값 개수 확인

✅ 3. 범주형 / 수치형 분포 확인

함수 설명

df['col'].value_counts() 범주형 변수의 빈도수 확인
df['col'].value_counts(normalize=True) 비율(%)로 확인
df['col'].unique() 고유값 리스트 확인
df['col'].value_counts().plot(kind='bar') 막대그래프 시각화
df['col'].hist() 수치형 변수의 히스토그램

✅ 4. 상관관계 및 관계 분석

함수 설명

df.corr() 수치형 변수 간 상관계수 확인
df.cov() 공분산 확인
pd.plotting.scatter_matrix(df) 변수 간 산점도 행렬
df.groupby('col')['target'].mean() 그룹별 평균 확인
pd.crosstab(df['col1'], df['col2']) 범주형 간 교차표 생성

✅ 5. 데이터 요약 및 구조 변화

함수 설명

df.groupby('col') 그룹화
df.pivot_table(index='col1', columns='col2', values='val', aggfunc='mean') 피벗테이블
df.sort_values(by='col', ascending=False) 정렬
df.reset_index(drop=True) 인덱스 초기화
df.rename(columns={'old':'new'}) 컬럼명 변경

✅ 6. 기타 자주 쓰는 유용 함수

함수 설명

df.sample(n=5) 랜덤 샘플 추출
df.apply(lambda x: ...) 사용자 정의 함수 적용
df.query('col > 10') 조건 필터링
df.select_dtypes(include='number') 수치형 컬럼만 선택
df.to_csv('파일명.csv') CSV 저장

 

반응형

댓글