🖥️ IT, 컴퓨터/🐍 Python

[Python] 파이썬으로 기술통계량 확인하기 :: info / describe / unique / value_counts

김 홍시 2024. 1. 23.
반응형

기술통계량 확인


- 데이터의 통계적 특성을 확인하기 위해 


- 연속형 자료: 
    1. 대표값 (평균 mean/중위수 median) : 해당 연속형 자료를 대표하는 대표값
        - 평균의 경우 이상치(Outlier, 데이터 트랜드에 벗어나는 값)에 의해 매우 높게/낮게 계산될 수 있음   
        A: 1,4,2,3,5 ) 평균 = 3, 중위수 = 3 
        B: 1,4,2,3,1000) 평균 = 약 200, 중위수 = 3
    2. 산포 (분산, 표준편차): 해당 연속형 자료의 대표값으로부터 데이터들이 얼마나 떨어져 있는지 나타내는 통계량
        - 대표값에 의해 데이터가 얼마나 정확한지를 나타내는 척도
        - 제조업) 데이터의 신뢰성을 나타내기도 함  
                ex. 제조업의 품질에서는 일정 품질을 위해 분산 너무 크지 않는 것이 중요.
        - 분산 = 편차제곱합 / n, 표준편차 =  (편차제곱합 / n) ^1/2
        - 이상치가 오게 되면 분산, 표준편차도 커짐. 
        => 사분위수 :  전체 데이터를 4등분함. 상자그림 
            - 사분범위 (IQR: InterQualtile Range): 중간 50%
    3. 분포의 모양: 해당 연속형 자료의 분포 모양
        - 분포의 모양에 따라 가설검정 기법 / 전통 통계에서 사용하는 회귀분석 기법이 달라질 수 있기 때문. 
        - 가설검정 통해 확인 (정규성 검정)



- 범주형 자료: 어떤 항목이 있는지, 항목 당 빈도수를 확인.

 

 

: info로 데이터의 구조 확인한 후, describe로 숫자 데이터의 요약통계량을 확인할 것.

 

df1.info()

 

숫자 데이터 요약 

 

df1.describe()

 

 

df1.describe(include = 'object')

 

 

 

df1.describe(include = 'all')

 

 

 

 

df1.describe()

 

요약통계량 (5 number summary). df형태로 나타남
데이터 개수, 평균, 표준편차, 사분위수, 최댓값과 최솟값 

 

 

문자열 데이터 요약 

 

df1["Channel"].unique()

 

 

 

 

df1["Channel"].value_counts()

 

 

 

반응형

댓글