🖥️ IT, 컴퓨터/📁 데이터 분석

SMOTE (Synthetic Minority Over-sampling Technique)

김 홍시 2023. 12. 16.

SMOTE (Synthetic Minority Over-sampling Technique)는 불균형한 데이터셋에서 소수 클래스의 예시를 합성하여 추가하는 방법입니다. 이 기법은 주로 분류 문제에서 클래스 불균형을 해결하는 데 사용됩니다. SMOTE는 소수 클래스의 데이터 포인트를 무작위로 선택하고 가장 가까운 이웃 중 하나를 선택하여 이 두 포인트 사이에 새로운 데이터 포인트를 합성합니다.

SMOTE의 핵심 단계는 다음과 같습니다:

소수 클래스 데이터 선택: 소수 클래스에서 데이터 포인트를 무작위로 선택합니다.
가장 가까운 이웃 찾기: 선택된 데이터 포인트의 k개의 가장 가까운 이웃을 찾습니다. k는 일반적으로 사용자가 지정합니다.
합성 데이터 생성: 선택된 데이터 포인트와 그 이웃 중 하나 사이에 새로운 데이터 포인트를 생성합니다. 이는 두 포인트 사이의 선분을 따라 임의의 점을 선택함으로써 이루어집니다.
데이터셋에 추가: 합성된 데이터 포인트를 원래 데이터셋에 추가하여 클래스 간의 균형을 개선합니다.

SMOTE는 데이터셋의 다양성을 증가시키고, 과대적합을 줄이며, 모델이 소수 클래스를 더 잘 일반화하도록 도울 수 있습니다. 그러나 이 기법은 항상 모든 문제에 적합한 것은 아니며, 때로는 데이터의 과합성을 초래할 수도 있습니다. SMOTE를 사용할 때는 데이터의 특성과 문제의 맥락을 고려해야 합니다.

저작자표시 비영리 동일조건 (새창열림)

'🖥️ IT, 컴퓨터 > 📁 데이터 분석' 카테고리의 다른 글

[딥러닝] Drop-out의 개념 (0)	2023.12.16
시계열 데이터 분석 모델 (0)	2023.12.16
[DL] Swin Transformer (0)	2023.12.08
[DL] U-Net의 특징 (0)	2023.12.08
[DL] 이미지 어그멘테이션(Image Augmentation) (0)	2023.12.08

SMOTE (Synthetic Minority Over-sampling Technique)

'🖥️ IT, 컴퓨터 > 📁 데이터 분석' 카테고리의 다른 글

댓글

티스토리툴바