로지스틱 회귀분석
- 종속변수가 범주형일 때 적용 가능한 회귀분석 모형
- 데이터의 종속변수가 특정 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 예측된 확률에 따라 가능성이 더 높은 범주로 분류하는 지도학습 알고리즘
로지스틱 회귀는 주로 이진 분류 문제를 해결하기 위해 사용되는 통계 모델입니다. 이진 분류란, 두 개의 선택지 중 하나를 고르는 문제를 의미해요. 예를 들어, "이 이메일은 스팸인가, 아닌가?"나 "이 환자가 특정 병에 걸릴 확률은 높은가, 낮은가?" 같은 질문들이죠.
로지스틱 회귀는 여러 가지 정보(변수라고 부릅니다)를 고려해서 '예' 또는 '아니오'로 답하는 확률을 계산해 줍니다. 만약 의료 분야에서 로지스틱 회귀를 사용한다면, 환자의 나이, 키, 몸무게, 혈압 등 다양한 정보를 모델에 넣어 병에 걸릴 확률을 예측할 수 있겠죠.
로지스틱 회귀의 중요한 점은 '선형 회귀'와 비슷하게 생겼지만, 결과값이 0과 1 사이의 확률로 나오게 하는 '로지스틱 함수'를 사용한다는 것입니다. 이 확률값을 토대로 확률이 0.5보다 크면 '예', 0.5보다 작거나 같으면 '아니오'라고 결론을 내릴 수 있어요.
이런 방식으로 로지스틱 회귀는 의학, 마케팅, 금융 등 여러 분야에서 유용하게 쓰입니다. 예측력이 높고 해석하기도 상대적으로 쉬워서 많이 사용되는 기법 중 하나에요.
로지스틱 회귀는 다수의 독립 변수, 즉 설명 변수(X)를 사용하여 종속 변수(Y)를 예측합니다. 여기서 종속 변수는 0 또는 1의 값을 가집니다. 로지스틱 회귀의 핵심은 선형 회귀와 유사하게 입력 데이터의 선형 조합을 구한 후, 이 값을 로지스틱 함수(sigmoid 함수)를 통해 0과 1 사이의 값으로 변환하는 것입니다.
***로지스틱 함수 자체가 결과가 무조건 0~1사이로 나오게 됨
1+ 다음 애가 0이면 p=1이고
1+다음애가 jolla 커지면 p=0임***
여기서
는 모델 파라미터이고,
는 독립 변수들입니다.
이렇게 계산된 확률 값이 임계치(보통 0.5)보다 크면 '1'로, 작으면 '0'으로 분류합니다. 이 방법은 의료 진단, 금융 리스크 평가, 마케팅 응답 예측 등 다양한 분야에서 사용되며, 간단하면서도 효율적인 분류 알고리즘 중 하나입니다.
로지스틱 회귀는 그 구조가 단순하고 결과의 해석이 직관적이기 때문에, 복잡한 알고리즘을 적용하기 전에 빠르게 문제를 이해하거나 기준 모델(baseline model)을 만들 때 유용하게 쓰입니다.
로지스틱 vs. 일반 회귀
몸무게가 60kg인 사람의 키는 몇일까? : 회귀
이 사진이 고양이일까? 아닐까? : 로지스틱. (0~1사이의 확률로 결과가 나와야하니까)
=> 회귀랑 비슷한데 결과값이
일반 회귀 : 아무 숫자
vs. 로지스틱 회귀 : 0~1 사이의 아무 숫자 라는 차이
'💖 Hongsi's Study > 📊 통계・공간통계・공간최적화' 카테고리의 다른 글
[데이터 시각화] 데이터 별 시각화 방법 (0) | 2023.02.19 |
---|---|
[자격증] 빅데이터분석기사 정보 총 정리 : 필기, 실기 / 문항 / 문제 수 / 일정 / 주의사항 (0) | 2023.02.05 |
[통계] 주성분분석과 요인분석 (0) | 2023.02.05 |
[통계] 독립변수와 종속변수 (0) | 2023.02.05 |
[베이즈 통계] 베이즈 통계의 장점 및 적용 예 (0) | 2023.02.03 |
댓글