반응형
EDA(Exploratory Data Analysis) 단계에서 .shape 외에도 자주 사용되는 Python(pandas 중심) 함수들
✅ 1. 데이터 기본 정보 확인
함수 설명
df.head() | 상위 5개 행 출력 (데이터 확인용) |
df.tail() | 하위 5개 행 출력 |
df.info() | 열별 타입, 결측치, 데이터 개수 확인 |
df.describe() | 수치형 변수의 기초통계량 (평균, 표준편차 등) |
df.columns | 컬럼명 확인 |
df.index | 인덱스 확인 |
df.dtypes | 각 열의 자료형 확인 |
df.memory_usage() | 메모리 사용량 확인 |
✅ 2. 결측치 / 이상치 확인
함수 설명
df.isnull().sum() | 열별 결측치 개수 확인 |
df.isna().mean() | 열별 결측치 비율 확인 |
df[df.duplicated()] | 중복 행 확인 |
df.nunique() | 각 열의 고유값 개수 확인 |
✅ 3. 범주형 / 수치형 분포 확인
함수 설명
df['col'].value_counts() | 범주형 변수의 빈도수 확인 |
df['col'].value_counts(normalize=True) | 비율(%)로 확인 |
df['col'].unique() | 고유값 리스트 확인 |
df['col'].value_counts().plot(kind='bar') | 막대그래프 시각화 |
df['col'].hist() | 수치형 변수의 히스토그램 |
✅ 4. 상관관계 및 관계 분석
함수 설명
df.corr() | 수치형 변수 간 상관계수 확인 |
df.cov() | 공분산 확인 |
pd.plotting.scatter_matrix(df) | 변수 간 산점도 행렬 |
df.groupby('col')['target'].mean() | 그룹별 평균 확인 |
pd.crosstab(df['col1'], df['col2']) | 범주형 간 교차표 생성 |
✅ 5. 데이터 요약 및 구조 변화
함수 설명
df.groupby('col') | 그룹화 |
df.pivot_table(index='col1', columns='col2', values='val', aggfunc='mean') | 피벗테이블 |
df.sort_values(by='col', ascending=False) | 정렬 |
df.reset_index(drop=True) | 인덱스 초기화 |
df.rename(columns={'old':'new'}) | 컬럼명 변경 |
✅ 6. 기타 자주 쓰는 유용 함수
함수 설명
df.sample(n=5) | 랜덤 샘플 추출 |
df.apply(lambda x: ...) | 사용자 정의 함수 적용 |
df.query('col > 10') | 조건 필터링 |
df.select_dtypes(include='number') | 수치형 컬럼만 선택 |
df.to_csv('파일명.csv') | CSV 저장 |
반응형
'🖥️ IT, 컴퓨터 > 🐍 Python' 카테고리의 다른 글
[Python] Geopandas로 valid하지 않은 도형 포함한 shp파일을 valid한 것만 남기기 (0) | 2025.04.16 |
---|---|
[Python] Geopandas로 폴리곤의 중심점(centroid) 계산하기 (0) | 2025.04.14 |
[Python] Dask란? :: Pandas보다 빠르고 큰 데이터도 처리 가능한 라이브러리 (0) | 2025.04.01 |
[Python] 파이썬 디버깅하기 (0) | 2025.04.01 |
[Python] parquet 파일포맷이란? (0) | 2025.03.31 |
댓글