💖 Hongsi's Study/📊 통계・공간통계・공간최적화

[통계] Metric distances / Semimetric distances / Nonmetric distances

김 홍시 2023. 9. 7.
반응형

메트릭 거리 (Metric Distances)

 

 

유클리디안 거리 (Euclidean Distance)

유클리디안 거리는 가장 기본적인 거리 측정 방법으로, 두 점 ( A )와 ( B )가 각각 ( (x_1, y_1, z_1, \ldots) )과 ( (x_2, y_2, z_2, \ldots) ) 좌표를 가질 때, 그 거리는 다음과 같이 계산됩니다.

[
\text{Distance} = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2 + (z_2 - z_1)^2 + \ldots}
]

코드 거리 (Chord Distance)

코드 거리는 두 점 사이의 '코드'를 사용하여 거리를 측정합니다. 이는 주로 고차원 데이터나 벡터 공간에서 사용됩니다.

[
\text{Chord Distance} = \sqrt{1 - \text{Cosine Similarity}}
]

자카드 계수 (Jaccard's Coefficient)

자카드 계수는 두 집합 사이의 유사성을 측정하는 방법입니다. 두 집합 ( A )와 ( B )의 자카드 계수는 다음과 같이 계산됩니다.

[
\text{Jaccard's Coefficient} = \frac{| A \cap B |}{| A \cup B |}
]

세미메트릭 거리 (Semimetric Distances)

세미메트릭 거리는 메트릭 거리의 일부 조건은 만족하지만, 모든 조건을 충족하지는 않는 거리 측정 방법을 의미합니다. 예를 들어, 삼각부등식을 만족하지 않을 수 있습니다. 이러한 거리 측정법은 특정 응용 분야에서는 메트릭 거리보다 더 유용할 수 있습니다. 예를 들어, 텍스트 분석이나 컴퓨터 비전에서 세미메트릭 거리가 유용하게 사용될 수 있습니다.

소렌센 계수 (Sorensen's Coefficient)

소렌센 계수는 두 집합의 유사성을 측정하는 또 다른 방법입니다. 이 계수는 다음과 같이 계산됩니다.

[
\text{Sorensen's Coefficient} = \frac{2 \times | A \cap B |}{| A | + | B |}
]

브레이-커티스 계수 (Bray-Curtis Coefficient)

브레이-커티스 계수는 두 집합 또는 벡터 사이의 유사성을 측정하는 방법입니다. 일반적으로 생태학에서 많이 사용되며, 다음과 같이 계산됩니다.

[
\text{Bray-Curtis Coefficient} = \frac{\sum |a_i - b_i|}{\sum |a_i + b_i|}
]

비메트릭 거리 (Nonmetric Distances)

비메트릭 거리는 메트릭 거리의 기본적인 조건을 거의 또는 전혀 충족하지 않는 거리 측정 방법을 의미합니다. 이러한 방법은 데이터의 '순위'나 '구조'에 중점을 둡니다. 예를 들어, 어떤 사람들이 영화에 대해 어떻게 느끼는지를 순위로만 표현한다면, 그 사이의 '거리'는 비메트릭 거리로 측정될 수 있습니다. 이런 거리 측정법은 주로 사회과학이나 심리학 등에서 볼 수 있습니다.

 

비메트릭 거리는 일반적인 거리 측정 방법의 속성을 만족시키지 않는 측정방법입니다. 이러한 방법은 일반적으로 데이터의 순위나 구조에 더 집중합니다.

각각의 거리 측정 방법은 다양한 응용 분야와 상황에 따라 사용됩니다. 유사성이나 거리를 어떻게 측정할지는 분석하려는 문제나 데이터의 특성에 따라 달라질 수 있습니다.

 

 

 

이러한 거리 측정 방법들은 다양한 학문과 응용 분야에서 사용될 수 있습니다:

  1. 컴퓨터 과학: 데이터 마이닝, 머신러닝, 이미지 인식, 자연어 처리 등에서 유사성을 측정할 때 이러한 거리 메트릭이 사용됩니다.
  2. 통계학 및 데이터 과학: 클러스터 분석, 주성분 분석(PCA), 다변량 분석 등에 사용됩니다.
  3. 생물정보학: 유전자 서열이나 단백질 구조의 유사성을 측정할 때 사용됩니다.
  4. 로보틱스: 로봇이 물체나 장애물과의 거리를 측정할 때 사용될 수 있습니다.
  5. 지리학: 공간 분석, 지리 정보 시스템(GIS)에서의 위치 분석 등에 사용됩니다.
  6. 심리학: 심리적 거리나 유사성을 측정하는 데 사용될 수 있습니다.
  7. 경제학: 시장 분석이나 소비자 행동의 유사성을 측정하는 데 사용될 수 있습니다.
  8. 생태학: 서로 다른 생태계나 생물군집 간의 유사성을 측정하는 데 사용됩니다. 브레이-커티스 계수는 특히 이 분야에서 자주 사용됩니다.
  9. 추천 시스템: 상품, 영화, 음악 등을 추천할 때 유사성을 측정하는 기준으로 사용될 수 있습니다.
  10. 의료 분야: 질병의 패턴 인식, 진단, 의료 영상 분석 등에서도 유사성 측정이 중요할 수 있습니다.
  11. 텍스트 마이닝 및 문서 검색: 자카드 계수나 소렌센 계수는 텍스트 문서의 유사성을 측정하는 데 사용될 수 있습니다.

이 외에도 여러 분야에서 매우 다양하게 사용되므로, 거리 측정 방법은 그 응용 분야나 문제에 따라 선택됩니다.

 

 

 

정리하자면,

  • 메트릭 거리는 엄격한 수학적 규칙을 따르는 거리 측정 방법입니다.
  • 세미메트릭 거리는 일부 규칙은 따르지만, 모든 것을 따르지는 않습니다.
  • 비메트릭 거리는 이러한 규칙을 전혀 따르지 않으며, 주로 데이터의 구조나 순위에 중점을 둡니다.

각각의 방법은 해당되는 분야나 문제에 따라 장단점이 있으므로, 어떤 거리 측정 방법을 사용할지는 명확한 이해와 분석이 필요합니다.

 

 

https://chat.openai.com/share/b981e3d2-6099-45e7-92ac-85c1da6ba987

 

ChatGPT

메트릭 거리 (Metric Distances) 유클리디안 거리 (Euclidean Distance) 유클리디안 거리는 가장 기본적인 거리 측정 방법으로, 두 점 AAA와 BBB가 각각 (x1,y1,z1,…)(x_1, y_1, z_1, \ldots)(x1​,y1​,z1​,…)과 (x2,y2,z2

chat.openai.com

 

반응형

댓글