홍시의 씽크탱크

🖥️ IT, 컴퓨터/🐍 Python

[Python] EDA 시 자주 사용되는 함수 모음

김 홍시 2025. 4. 14.

EDA(Exploratory Data Analysis) 단계에서 .shape 외에도 자주 사용되는 Python(pandas 중심) 함수들

✅ 1. 데이터 기본 정보 확인

함수 설명

df.head()	상위 5개 행 출력 (데이터 확인용)
df.tail()	하위 5개 행 출력
df.info()	열별 타입, 결측치, 데이터 개수 확인
df.describe()	수치형 변수의 기초통계량 (평균, 표준편차 등)
df.columns	컬럼명 확인
df.index	인덱스 확인
df.dtypes	각 열의 자료형 확인
df.memory_usage()	메모리 사용량 확인

✅ 2. 결측치 / 이상치 확인

함수 설명

df.isnull().sum()	열별 결측치 개수 확인
df.isna().mean()	열별 결측치 비율 확인
df[df.duplicated()]	중복 행 확인
df.nunique()	각 열의 고유값 개수 확인

✅ 3. 범주형 / 수치형 분포 확인

함수 설명

df['col'].value_counts()	범주형 변수의 빈도수 확인
df['col'].value_counts(normalize=True)	비율(%)로 확인
df['col'].unique()	고유값 리스트 확인
df['col'].value_counts().plot(kind='bar')	막대그래프 시각화
df['col'].hist()	수치형 변수의 히스토그램

✅ 4. 상관관계 및 관계 분석

함수 설명

df.corr()	수치형 변수 간 상관계수 확인
df.cov()	공분산 확인
pd.plotting.scatter_matrix(df)	변수 간 산점도 행렬
df.groupby('col')['target'].mean()	그룹별 평균 확인
pd.crosstab(df['col1'], df['col2'])	범주형 간 교차표 생성

✅ 5. 데이터 요약 및 구조 변화

함수 설명

df.groupby('col')	그룹화
df.pivot_table(index='col1', columns='col2', values='val', aggfunc='mean')	피벗테이블
df.sort_values(by='col', ascending=False)	정렬
df.reset_index(drop=True)	인덱스 초기화
df.rename(columns={'old':'new'})	컬럼명 변경

✅ 6. 기타 자주 쓰는 유용 함수

함수 설명

df.sample(n=5)	랜덤 샘플 추출
df.apply(lambda x: ...)	사용자 정의 함수 적용
df.query('col > 10')	조건 필터링
df.select_dtypes(include='number')	수치형 컬럼만 선택
df.to_csv('파일명.csv')	CSV 저장

저작자표시 비영리 동일조건 (새창열림)

'🖥️ IT, 컴퓨터 > 🐍 Python' 카테고리의 다른 글

[Python] Geopandas로 valid하지 않은 도형 포함한 shp파일을 valid한 것만 남기기 (0)	2025.04.16
[Python] Geopandas로 폴리곤의 중심점(centroid) 계산하기 (0)	2025.04.14
[Python] Dask란? :: Pandas보다 빠르고 큰 데이터도 처리 가능한 라이브러리 (0)	2025.04.01
[Python] 파이썬 디버깅하기 (0)	2025.04.01
[Python] parquet 파일포맷이란? (0)	2025.03.31

댓글

티스토리툴바