🖥️ IT, 컴퓨터/📁 빅데이터・인공지능

SMOTE (Synthetic Minority Over-sampling Technique)

김 홍시 2023. 12. 16.
반응형

SMOTE (Synthetic Minority Over-sampling Technique)는 불균형한 데이터셋에서 소수 클래스의 예시를 합성하여 추가하는 방법입니다. 이 기법은 주로 분류 문제에서 클래스 불균형을 해결하는 데 사용됩니다. SMOTE는 소수 클래스의 데이터 포인트를 무작위로 선택하고 가장 가까운 이웃 중 하나를 선택하여 이 두 포인트 사이에 새로운 데이터 포인트를 합성합니다.

SMOTE의 핵심 단계는 다음과 같습니다:

  1. 소수 클래스 데이터 선택: 소수 클래스에서 데이터 포인트를 무작위로 선택합니다.
  2. 가장 가까운 이웃 찾기: 선택된 데이터 포인트의 k개의 가장 가까운 이웃을 찾습니다. k는 일반적으로 사용자가 지정합니다.
  3. 합성 데이터 생성: 선택된 데이터 포인트와 그 이웃 중 하나 사이에 새로운 데이터 포인트를 생성합니다. 이는 두 포인트 사이의 선분을 따라 임의의 점을 선택함으로써 이루어집니다.
  4. 데이터셋에 추가: 합성된 데이터 포인트를 원래 데이터셋에 추가하여 클래스 간의 균형을 개선합니다.

SMOTE는 데이터셋의 다양성을 증가시키고, 과대적합을 줄이며, 모델이 소수 클래스를 더 잘 일반화하도록 도울 수 있습니다. 그러나 이 기법은 항상 모든 문제에 적합한 것은 아니며, 때로는 데이터의 과합성을 초래할 수도 있습니다. SMOTE를 사용할 때는 데이터의 특성과 문제의 맥락을 고려해야 합니다.

반응형

댓글