반응형
혼동 행렬(Confusion Matrix)은 분류 문제에서 예측값과 실제값을 비교하기 위해 사용되는 테이블입니다. 이 행렬은 모델의 성능을 이해하는 데 도움을 줍니다. 혼동 행렬은 다음과 같이 네 가지 기본 요소로 구성됩니다:
- 참 양성(True Positive, TP): 실제로 양성인 사례를 모델이 양성으로 정확하게 예측한 경우입니다.
- 참 음성(True Negative, TN): 실제로 음성인 사례를 모델이 음성으로 정확하게 예측한 경우입니다.
- 거짓 양성(False Positive, FP): 실제로는 음성인데 모델이 양성으로 잘못 예측한 경우입니다. 이를 '제1종 오류'라고도 합니다.
- 거짓 음성(False Negative, FN): 실제로는 양성인데 모델이 음성으로 잘못 예측한 경우입니다. 이를 '제2종 오류'라고도 합니다.
혼동 행렬은 보통 다음과 같이 표현됩니다:
예측 양성 | 예측 음성 | |
---|---|---|
실제 양성 | 참 양성 (TP) | 거짓 음성 (FN) |
실제 음성 | 거짓 양성 (FP) | 참 음성 (TN) |
혼동 행렬을 사용하면 다음과 같은 여러 성능 지표를 계산할 수 있습니다:
- 정확도(Accuracy): 전체 예측 중 올바르게 예측된 비율입니다. ((TP + TN) / (TP + TN + FP + FN))
- 정밀도(Precision): 양성으로 예측된 사례 중 실제로 양성인 사례의 비율입니다. (TP / (TP + FP))
- 재현율(Recall) 또는 감도(Sensitivity): 실제 양성 사례 중 모델이 양성으로 올바르게 예측한 비율입니다. (TP / (TP + FN))
- 특이성(Specificity): 실제 음성 사례 중 모델이 음성으로 올바르게 예측한 비율입니다. (TN / (TN + FP))
혼동 행렬을 통해 모델의 성능을 다각도로 분석하고, 특정 문제에 대해 모델의 강점과 약점을 파악할 수 있습니다.
반응형
'🖥️ IT, 컴퓨터 > 📁 빅데이터・인공지능' 카테고리의 다른 글
[빅데이터] 데이터 마트(Data Mart), 데이터 웨어하우스(Data Warehouse), 데이터 레이크(Data Lake) 차이 (0) | 2024.03.31 |
---|---|
[빅데이터] 데이터 마트(Data Mart) 의미/개념/구축 방법 (0) | 2024.03.31 |
[SQL] SQL JOINS 다이어그램 (0) | 2024.01.02 |
[SQL] 쿼리 테스트 준비 (데이터 분석 직무) (0) | 2024.01.02 |
[SQL] 기초 쿼리 모음 (0) | 2024.01.02 |
댓글