💖 Hongsi's Study/📊 통계・공간통계・공간최적화

[통계] Jaccard's Coefficient

김 홍시 2023. 9. 7.
반응형

Jaccard's Coefficient(또는 Jaccard Index)는 두 개의 집합이 얼마나 유사한지를 측정하기 위한 통계적 지표 중 하나입니다. 이것은 데이터 과학, 정보 검색, 패턴 인식 등 다양한 분야에서 사용됩니다. Jaccard's Coefficient는 다음과 같이 정의됩니다:

J(A, B) = (A ∩ B) / (A ∪ B)

여기서:

  • J(A, B): 두 집합 A와 B의 Jaccard's Coefficient입니다.
  • A ∩ B: A와 B의 교집합, 즉 A와 B 모두에 속하는 원소들의 집합입니다.
  • A ∪ B: A와 B의 합집합, 즉 A 또는 B 중 어느 하나에 속하는 모든 원소들의 집합입니다.

Jaccard's Coefficient는 0과 1 사이의 값을 가지며, 두 집합이 완전히 동일하면 1이 되고, 아무 공통 원소가 없을 때 0이 됩니다. 이 지표는 주로 집합 간 유사성을 비교하는 데 사용되며, 예를 들어 다음과 같은 상황에서 유용합니다:

  1. 문서 유사성: 문서나 텍스트 문장을 표현하는 데 사용되며, 두 문서 사이의 유사성을 평가합니다.
  2. 추천 시스템: 사용자 간의 관심사 유사성을 평가하여 제품 또는 콘텐츠 추천에 활용됩니다.
  3. 집합 유사성: 데이터베이스에서 집합의 유사성을 분석할 때 사용됩니다.

예를 들어, A 집합이 {1, 2, 3}이고 B 집합이 {2, 3, 4}이면, Jaccard's Coefficient는 (2 / 5) = 0.4가 됩니다. 이는 두 집합의 유사성이 40%라는 것을 의미합니다.

반응형

댓글