💖 Hongsi's Study/📊 통계・공간통계・공간최적화

로지스틱 회귀(Logistic Regression)와 AUC-ROC

김 홍시 2024. 3. 24.
반응형

 

로지스틱 회귀 (Logistic Regression)

로지스틱 회귀는 분류 문제를 해결하기 위한 통계적 모델입니다. 주로 이진 분류 문제에 사용되지만, 다중 분류 문제에도 확장될 수 있습니다. 로지스틱 회귀는 선형 회귀와 비슷한 방식으로 데이터의 로지스틱 함수(Logistic function) 또는 시그모이드 함수(Sigmoid function)를 사용하여 출력값을 0과 1 사이의 확률로 변환합니다. 이 함수는 특정 이벤트의 발생 확률을 예측하는 데 사용되며, 예측된 확률은 결국 이벤트의 발생 여부(예: 0 또는 1)를 결정하는 데 사용됩니다.

로지스틱 회귀 모델은 다음과 같은 시그모이드 함수를 사용합니다:

 

AUC-ROC

AUC-ROC는 모델의 분류 성능을 평가하는 데 사용되는 지표입니다. AUC(Area Under the Curve)는 ROC(Receiver Operating Characteristic) 곡선 아래의 면적을 의미합니다. ROC 곡선은 다양한 임계값에서 모델이 True Positive Rate(TPR, 민감도)와 False Positive Rate(FPR, 1-특이도) 사이에서 어떻게 성능을 나타내는지 보여주는 그래프입니다.

  • True Positive Rate (TPR): 실제 Positive 클래스에 속하는 데이터 중에서 모델이 Positive로 정확히 분류한 데이터의 비율입니다.
  • False Positive Rate (FPR): 실제 Negative 클래스에 속하는 데이터 중에서 모델이 잘못해서 Positive로 분류한 데이터의 비율입니다.

AUC 값이 1에 가까울수록 모델의 성능이 뛰어남을 의미하며, 0.5에 가까울수록 성능이 무작위 추측 수준임을 나타냅니다. 테스트 AUC-ROC는 특히 모델이 새로운, 보지 못한 데이터(Test Data)에 대해 얼마나 잘 예측하는지 평가할 때 사용됩니다. 따라서 모델의 일반화 능력을 진단하는 데 유용한 도구입니다.

반응형

댓글