💖 Hongsi's Study/📊 통계･공간통계･공간최적화

[통계] p-value(유의확률)란?

김 홍시 2024. 12. 9.

p-value(유의확률)는 통계적 가설검정에서 관찰된 데이터가 귀무가설(null hypothesis)이 참이라는 가정하에 나타날 확률을 의미합니다. 이는 가설검정에서 데이터가 얼마나 극단적인지를 평가하는 척도로 사용됩니다. 다음은 p-value의 주요 개념과 활용을 정리한 내용입니다:

1. 귀무가설과 대립가설

귀무가설 (H0H_0): 차이가 없거나 효과가 없다는 가정입니다. 예를 들어, "두 집단 간 평균 차이가 없다"는 가정입니다.
대립가설 (H1H_1): 귀무가설과 반대되는 주장으로, 예를 들어 "두 집단 간 평균 차이가 있다"는 내용입니다.

p-value는 귀무가설이 참일 때, 현재 관찰된 데이터 또는 그보다 극단적인 데이터가 나올 확률을 계산합니다.

2. p-value의 해석

p-value가 작을수록 귀무가설이 맞을 가능성이 낮아지며, 대립가설을 지지할 가능성이 높아집니다.
일반적으로 통계학에서는 특정 기준(유의수준, α\alpha)을 설정하여 p-value를 평가합니다. α=0.05\alpha = 0.05가 흔히 사용됩니다.
- p-value ≤ α\alpha: 귀무가설 기각 (통계적으로 유의미하다)
- p-value > α\alpha: 귀무가설 채택 (통계적으로 유의미하지 않다)

예를 들어, p-value가 0.03이라면 이는 귀무가설이 참일 때, 관찰된 데이터가 나올 확률이 3%임을 의미합니다. 이는 α=0.05\alpha = 0.05 기준으로 귀무가설을 기각하는 결과입니다.

3. p-value 계산 과정

p-value는 다음의 절차로 계산됩니다:

통계적 검정 방법 선택: 데이터와 연구 질문에 따라 적절한 검정 방법(예: t-검정, 카이제곱 검정, ANOVA)을 선택합니다.
검정 통계량 계산: 데이터로부터 통계량(예: t값, z값, F값)을 계산합니다.
분포 상의 확률 계산: 해당 통계량의 값이 귀무가설의 확률분포에서 차지하는 위치를 기준으로 p-value를 구합니다.

4. p-value의 한계

해석 오해: p-value가 낮다고 해서 대립가설이 반드시 옳거나, 연구 결과가 실질적으로 중요하다는 것을 의미하지 않습니다. 이는 단지 귀무가설을 기각할 근거가 있음을 나타낼 뿐입니다.
0.05 기준의 문제점: p-value 기준 (α=0.05\alpha = 0.05)는 임의적으로 정해진 값으로, 이를 지나치게 고정적으로 해석하면 중요한 통찰을 놓칠 수 있습니다.
표본 크기의 영향: 표본 크기가 클수록 작은 차이도 유의미한 것으로 나타날 수 있으므로, p-value는 효과 크기와 함께 고려되어야 합니다.

5. p-value와 효과 크기

p-value는 통계적 유의성만을 보여주기 때문에, 연구에서는 효과 크기(예: Cohen's d, Pearson's r)와 함께 해석하는 것이 중요합니다. 이는 실제 차이나 연관성의 크기를 평가하는 데 도움을 줍니다.

6. 결론

p-value는 통계적 검정에서 중요한 도구지만, 그 한계와 해석 방법을 올바르게 이해하고 사용하는 것이 중요합니다. 이를 통해 연구자가 관찰된 데이터의 의미를 보다 정확히 이해하고 의사결정을 내릴 수 있습니다.

저작자표시 비영리 동일조건 (새창열림)

'💖 Hongsi's Study > 📊 통계･공간통계･공간최적화' 카테고리의 다른 글

[통계 사이트] 전세계 국가별 통계청 사이트 링크 (0)	2024.12.12
[통계] 면접 대비 통계 관련 기초 개념 모음 (0)	2024.12.09
[공간통계] 통계와 공간통계의 차이? (0)	2024.12.09
[데이터 분석] 비즈니스 데이터 분석 절차 (0)	2024.10.01
로지스틱 회귀(Logistic Regression)와 AUC-ROC (0)	2024.03.24