💖 Hongsi's Study/📊 통계・공간통계・공간최적화

[통계] 다중공선성 vs. 완전공선성 (헷갈리는 통계 개념 정리)

김 홍시 2023. 6. 21.
반응형

다중공선성(Multicollinearity)

다중공선성(Multicollinearity)은 회귀분석에서 독립변수들 간에 강한 선형 관계가 존재하는 경우를 말합니다. 즉, 하나의 독립변수가 다른 독립변수로 잘 예측될 수 있는 상황을 의미합니다. 이러한 상황에서 회귀모형의 성능을 평가하거나 독립변수들의 영향력을 해석하는 것이 어려워질 수 있습니다.

다중공선성은 주로 상관계수나 분산팽창계수(VIF, Variance Inflation Factor)를 통해 평가됩니다. 상관계수가 1에 가까울수록 강한 선형 관계가 있음을 나타내며, VIF 값이 높을수록 다중공선성의 정도가 높다고 판단할 수 있습니다. 일반적으로 VIF 값이 10을 넘어가면 다중공선성의 문제가 심각하다고 판단할 수 있습니다.

다중공선성이 존재하는 경우, 회귀모형에서의 독립변수들의 계수 추정값이 불안정해지고, 회귀모형의 설명력이 떨어지는 문제가 발생할 수 있습니다. 또한, 독립변수들의 영향력을 정확하게 해석하기 어렵습니다.

 

 

완전공선성(Perfect multicollinearity)

반면, 완전공선성(Perfect multicollinearity)은 독립변수들 간에 정확한 선형 관계가 존재하는 경우를 말합니다. 즉, 독립변수들이 완전히 동일한 정보를 제공하는 상황입니다. 완전공선성이 존재하는 경우, 회귀분석에서 유의미한 계수 추정값을 얻을 수 없으며, 회귀모형이 제대로 적합되지 않습니다.

다중공선성이나 완전공선성이 있는 경우, 변수 선택법이나 차원 축소 기법 등을 활용하여 문제를 해결하거나, 독립변수들 사이의 선형 관계를 확인하고 변수를 조정하는 등의 전처리 과정을 거칠 수 있습니다.

 

반응형

댓글