기술통계량 확인
- 데이터의 통계적 특성을 확인하기 위해
- 연속형 자료:
1. 대표값 (평균 mean/중위수 median) : 해당 연속형 자료를 대표하는 대표값
- 평균의 경우 이상치(Outlier, 데이터 트랜드에 벗어나는 값)에 의해 매우 높게/낮게 계산될 수 있음
A: 1,4,2,3,5 ) 평균 = 3, 중위수 = 3
B: 1,4,2,3,1000) 평균 = 약 200, 중위수 = 3
2. 산포 (분산, 표준편차): 해당 연속형 자료의 대표값으로부터 데이터들이 얼마나 떨어져 있는지 나타내는 통계량
- 대표값에 의해 데이터가 얼마나 정확한지를 나타내는 척도
- 제조업) 데이터의 신뢰성을 나타내기도 함
ex. 제조업의 품질에서는 일정 품질을 위해 분산 너무 크지 않는 것이 중요.
- 분산 = 편차제곱합 / n, 표준편차 = (편차제곱합 / n) ^1/2
- 이상치가 오게 되면 분산, 표준편차도 커짐.
=> 사분위수 : 전체 데이터를 4등분함. 상자그림
- 사분범위 (IQR: InterQualtile Range): 중간 50%
3. 분포의 모양: 해당 연속형 자료의 분포 모양
- 분포의 모양에 따라 가설검정 기법 / 전통 통계에서 사용하는 회귀분석 기법이 달라질 수 있기 때문.
- 가설검정 통해 확인 (정규성 검정)
- 범주형 자료: 어떤 항목이 있는지, 항목 당 빈도수를 확인.
: info로 데이터의 구조 확인한 후, describe로 숫자 데이터의 요약통계량을 확인할 것.
df1.info()
숫자 데이터 요약
df1.describe()
df1.describe(include = 'object')
df1.describe(include = 'all')
df1.describe()
요약통계량 (5 number summary). df형태로 나타남
데이터 개수, 평균, 표준편차, 사분위수, 최댓값과 최솟값
문자열 데이터 요약
df1["Channel"].unique()
df1["Channel"].value_counts()
'🖥️ IT, 컴퓨터 > 🐍 Python' 카테고리의 다른 글
[Python] 파이썬 날짜 데이터로 변환, 연도/월/일/요일/주 추출 :: .to_datetime / dt.year / dt.month / dt.day / dt.day_name() / dt.isocalendar().week (0) | 2024.01.23 |
---|---|
[Python] 파이썬 help로 함수 설명 확인하기 :: help(라이브러리 이름.함수 이름) (0) | 2024.01.23 |
[Python] 주피터노트북 ipynb 문서 이름 바꾸는 방법 (Rename) (0) | 2024.01.22 |
[Python] 파이썬 random 모듈 도움말 (0) | 2024.01.18 |
[Python] 파이썬 문자열 내에서 특정 텍스트 찾기 :: count() (0) | 2024.01.18 |
댓글