💖 Hongsi's Study/📊 통계・공간통계・공간최적화

[통계] 로지스틱회귀 :: 연속형변수와 범주형 변수를 사용할 때 차이

김 홍시 2023. 9. 7.
반응형

로지스틱 회귀(logistic regression)는 일반적으로 분류 문제를 해결하기 위해 사용되는 통계 모델입니다. 연속형 변수(continuous variables)와 범주형 변수(categorical variables)는 로지스틱 회귀 모델에서 다르게 처리됩니다. 다음은 주요 차이점입니다.

연속형 변수 (Continuous Variables)

  1. 가설 공간: 연속형 변수는 실수 값을 가집니다. 이러한 변수들은 일반적으로 모델에 직접 적용될 수 있습니다.
  2. 스케일링: 연속형 변수는 여러 단위를 가질 수 있으므로, 일반적으로 스케일링(예: 표준화, 정규화 등)이 필요할 수 있습니다.
  3. 다항식 특성: 연속형 변수는 고차 다항식 특성으로 변환될 수 있어, 복잡한 관계를 모델링할 수 있습니다.

범주형 변수 (Categorical Variables)

  1. 인코딩: 범주형 변수는 일반적으로 텍스트 또는 심볼을 값으로 가집니다. 따라서 모델에 적용하기 전에 수치형으로 인코딩해야 합니다(예: 원-핫 인코딩, 레이블 인코딩 등).
  2. 가변수(dummy variable) 생성: 범주형 변수를 원-핫 인코딩으로 변환하면, 각 카테고리에 대한 가변수(dummy variable)가 생성됩니다. 이렇게 되면 변수의 차원이 증가할 수 있습니다.
  3. 순서의 중요성: 일부 범주형 변수는 순서가 중요할 수 있습니다(예: 낮음, 중간, 높음). 이러한 변수들은 순서형 변수(ordinal variables)로 취급되어, 적절한 수치값으로 매핑될 수 있습니다.

통합 사용

실제 문제에서는 연속형 변수와 범주형 변수가 함께 사용될 수 있습니다. 이 경우, 각 유형의 변수를 적절히 전처리한 후 모델에 적용해야 하며, 이 두 유형의 변수가 어떻게 서로 상호작용하는지를 이해하는 것이 중요합니다. 예를 들어, 연속형 변수와 범주형 변수의 교호작용 항을 모델에 포함시킬 수 있습니다.

반응형

댓글