반응형
로지스틱 회귀(logistic regression)는 일반적으로 분류 문제를 해결하기 위해 사용되는 통계 모델입니다. 연속형 변수(continuous variables)와 범주형 변수(categorical variables)는 로지스틱 회귀 모델에서 다르게 처리됩니다. 다음은 주요 차이점입니다.
연속형 변수 (Continuous Variables)
- 가설 공간: 연속형 변수는 실수 값을 가집니다. 이러한 변수들은 일반적으로 모델에 직접 적용될 수 있습니다.
- 스케일링: 연속형 변수는 여러 단위를 가질 수 있으므로, 일반적으로 스케일링(예: 표준화, 정규화 등)이 필요할 수 있습니다.
- 다항식 특성: 연속형 변수는 고차 다항식 특성으로 변환될 수 있어, 복잡한 관계를 모델링할 수 있습니다.
범주형 변수 (Categorical Variables)
- 인코딩: 범주형 변수는 일반적으로 텍스트 또는 심볼을 값으로 가집니다. 따라서 모델에 적용하기 전에 수치형으로 인코딩해야 합니다(예: 원-핫 인코딩, 레이블 인코딩 등).
- 가변수(dummy variable) 생성: 범주형 변수를 원-핫 인코딩으로 변환하면, 각 카테고리에 대한 가변수(dummy variable)가 생성됩니다. 이렇게 되면 변수의 차원이 증가할 수 있습니다.
- 순서의 중요성: 일부 범주형 변수는 순서가 중요할 수 있습니다(예: 낮음, 중간, 높음). 이러한 변수들은 순서형 변수(ordinal variables)로 취급되어, 적절한 수치값으로 매핑될 수 있습니다.
통합 사용
실제 문제에서는 연속형 변수와 범주형 변수가 함께 사용될 수 있습니다. 이 경우, 각 유형의 변수를 적절히 전처리한 후 모델에 적용해야 하며, 이 두 유형의 변수가 어떻게 서로 상호작용하는지를 이해하는 것이 중요합니다. 예를 들어, 연속형 변수와 범주형 변수의 교호작용 항을 모델에 포함시킬 수 있습니다.
반응형
'💖 Hongsi's Study > 📊 통계・공간통계・공간최적화' 카테고리의 다른 글
[통계] Jaccard's Coefficient (0) | 2023.09.07 |
---|---|
[통계] Metric distances / Semimetric distances / Nonmetric distances (0) | 2023.09.07 |
[공간통계] 앙상블학습 (ensemble machine learning) (0) | 2023.09.04 |
[공간통계] 생존분석 (event-history (survival) analysis) (0) | 2023.09.04 |
[공간통계] 다수준 모형 (multilevel or mixed-effect model) (0) | 2023.09.04 |
댓글