💖 Hongsi's Study/📊 통계・공간통계・공간최적화45 [통계] 거리를 측정하는 여러가지 방법들 (유클리디안/맨해튼/코사인/자카드) 거리를 측정하는 방법은 여러 가지가 있으며, 적용 분야나 목적에 따라 다르게 선택될 수 있습니다. 수학적/통계적 거리 측정 방법 유클리디안 거리(Euclidean Distance): 두 점 사이의 직선 거리를 계산하는 가장 기본적인 방법입니다. (d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}) 맨해튼 거리(Manhattan Distance): 각 축에 대한 차이의 절대값을 더합니다. (d(x, y) = \sum_{i=1}^{n} |x_i - y_i|) 코사인 유사도(Cosine Similarity): 두 벡터 간의 코사인 각도를 사용해 유사성을 측정합니다. 유사도를 거리로 변환할 수도 있습니다. 지오데식 거리(Geodesic Distance): 두 점을 잇는 가장 짧은.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 10. [통계] Jaccard's Coefficient Jaccard's Coefficient(또는 Jaccard Index)는 두 개의 집합이 얼마나 유사한지를 측정하기 위한 통계적 지표 중 하나입니다. 이것은 데이터 과학, 정보 검색, 패턴 인식 등 다양한 분야에서 사용됩니다. Jaccard's Coefficient는 다음과 같이 정의됩니다: J(A, B) = (A ∩ B) / (A ∪ B) 여기서: J(A, B): 두 집합 A와 B의 Jaccard's Coefficient입니다. A ∩ B: A와 B의 교집합, 즉 A와 B 모두에 속하는 원소들의 집합입니다. A ∪ B: A와 B의 합집합, 즉 A 또는 B 중 어느 하나에 속하는 모든 원소들의 집합입니다. Jaccard's Coefficient는 0과 1 사이의 값을 가지며,.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 7. [통계] Metric distances / Semimetric distances / Nonmetric distances 메트릭 거리 (Metric Distances) 유클리디안 거리 (Euclidean Distance) 유클리디안 거리는 가장 기본적인 거리 측정 방법으로, 두 점 ( A )와 ( B )가 각각 ( (x_1, y_1, z_1, \ldots) )과 ( (x_2, y_2, z_2, \ldots) ) 좌표를 가질 때, 그 거리는 다음과 같이 계산됩니다. [ \text{Distance} = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2 + (z_2 - z_1)^2 + \ldots} ] 코드 거리 (Chord Distance) 코드 거리는 두 점 사이의 '코드'를 사용하여 거리를 측정합니다. 이는 주로 고차원 데이터나 벡터 공간에서 사용됩니다. [ \text{Chord Distance} = \sqr.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 7. [통계] 로지스틱회귀 :: 연속형변수와 범주형 변수를 사용할 때 차이 로지스틱 회귀(logistic regression)는 일반적으로 분류 문제를 해결하기 위해 사용되는 통계 모델입니다. 연속형 변수(continuous variables)와 범주형 변수(categorical variables)는 로지스틱 회귀 모델에서 다르게 처리됩니다. 다음은 주요 차이점입니다. 연속형 변수 (Continuous Variables) 가설 공간: 연속형 변수는 실수 값을 가집니다. 이러한 변수들은 일반적으로 모델에 직접 적용될 수 있습니다. 스케일링: 연속형 변수는 여러 단위를 가질 수 있으므로, 일반적으로 스케일링(예: 표준화, 정규화 등)이 필요할 수 있습니다. 다항식 특성: 연속형 변수는 고차 다항식 특성으로 변환될 수 있어, 복잡한 관계를 모델링할 수 있습니다. 범주형 변수 (Cat.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 7. [공간통계] 앙상블학습 (ensemble machine learning) 앙상블 학습(Ensemble Learning)은 여러 개의 기본 모델(base models)을 결합하여 하나의 강력한 예측 모델을 만드는 머신러닝 방법이다. 이 기법은 개별 모델의 한계와 약점을 보완하며, 일반적으로 단일 모델보다 더 높은 성능을 보인다. 앙상블 학습은 분류, 회귀, 클러스터링 등 다양한 머신러닝 문제에 적용할 수 있다. 앙상블 방법에는 여러 가지 전략이 있다: 배깅(Bagging): 같은 유형의 여러 모델을 독립적으로 학습시키고, 그 예측을 투표나 평균으로 결합한다. 랜덤 포레스트(Random Forest)가 이에 해당한다. 부스팅(Boosting): 약한 모델을 순차적으로 학습시켜, 이전 모델들의 오차를 보정하는 새로운 모델을 생성한다. AdaBoost, Gradient Boostin.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 4. [공간통계] 생존분석 (event-history (survival) analysis) 생존분석, 또는 이벤트 히스토리 분석(event-history analysis),은 시간이 지남에 따라 특정 이벤트(예: 사망, 결혼, 구매 등)가 발생할 확률을 분석하는 통계적 방법입니다. 이 분석은 특히 의학, 생물학, 경제학, 사회과학 등 다양한 분야에서 사용된다. 기본적인 아이디어는 '생존 함수(Survival Function)'를 통해 어떤 시점까지 특정 이벤트가 발생하지 않을 확률을 모델링하는 것이다. 생존분석은 '좌측절단(left-censoring)'과 '우측절단(right-censoring)'과 같은 데이터 절단 문제를 적절히 다룰 수 있다. 예를 들어, 연구가 시작한 시점 이전에 이미 이벤트가 발생한 경우나 연구가 끝난 시점까지 이벤트가 발생하지 않은 경우 등을 고려할 수 있다. 대표적인.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 4. [공간통계] 다수준 모형 (multilevel or mixed-effect model) 다수준 모형(Multilevel or Mixed-Effect Model)은 계층적 또는 중첩된 데이터 구조를 가진 데이터에 적용되는 통계 모델이다. 이 모델은 일반적인 회귀 모델이나 일반화 선형 모델(GLM)을 확장한 형태로, 각 계층에서 발생하는 랜덤 효과를 모델링할 수 있다. 예를 들어, 학생들이 여러 학교에 속하는 데이터에서, 학생 수준과 학교 수준의 효과를 동시에 고려할 수 있다. 다수준 모형은 '고정 효과(fixed effects)'와 '랜덤 효과(random effects)' 두 가지 종류의 효과를 포함한다. 고정 효과는 전체 모집단에 일반적으로 적용되는 효과를 나타내며, 랜덤 효과는 각 계층이나 그룹 내에서만 발생하는 효과를 나타낸다. 이 모델은 교육, 의료, 심리학, 생태학 등 다양한 분야.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 4. [공간통계] 범주형 자료의 상관분석 (categorical association measure) 범주형 자료의 상관분석(categorical association measure)은 두 개 이상의 범주형 변수 간의 관계를 측정하는 통계적 방법이다. 대표적인 방법에는 카이제곱(Chi-squared) 테스트, 상관비(Correlation ratio), 포아송 회귀 등이 있다. 이러한 측정 방법은 범주형 변수 간에 어떤 패턴이나 관계가 있는지를 파악하는 데 도움을 준다. 카이제곱 테스트: 이 테스트는 주로 교차표(contingency table)를 사용하여 두 범주형 변수의 독립성을 검정한다. 만약 통계적으로 유의한 결과가 나온다면, 이는 두 변수가 독립적이지 않다는 것을 의미한다. 상관비(Correlation ratio): 이는 하나의 범주형 변수와 하나의 연속형 변수 사이의 관계를 측정한다. 예를 들어.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 4. [공간통계] 다차원척도법 (multidimensional scaling) 다차원 척도법(Multidimensional Scaling, MDS)은 다차원 공간에서의 객체 간의 거리나 유사성을 저차원 공간에서 재현하려는 통계적 기법이다. 기본 아이디어는 고차원의 복잡한 관계를 더 쉽게 이해하고 해석할 수 있는 저차원(주로 2D나 3D) 공간으로 매핑하는 것이다. MDS는 먼저 각 객체 쌍 사이의 '거리'나 '비유사성'에 대한 행렬을 생성한다. 이 행렬은 직접 측정할 수 있거나 다른 방법으로 추정할 수 있다. 이 행렬을 기반으로 저차원 공간에서의 새로운 포인트 위치를 찾아내는 최적화 과정을 거친다. 최적화의 목표는 저차원 공간에서의 거리가 원래 고차원 공간에서의 거리나 유사성을 최대한 잘 반영하는 것이다. 이를 위해 스트레스 함수나 평가 지표가 사용되며, 이 값이 최소가 되도록 계.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 4. [공간통계] 일반화선형모형(Generalized Linear Model, GLM) 일반화선형모형(Generalized Linear Model, GLM)은 선형회귀모형(Linear Regression Model)을 확장한 형태로, 응답 변수가 정규분포를 따르지 않거나 오차항과 독립변수 사이의 관계가 선형이 아닌 경우에도 적용할 수 있다. GLM은 세 가지 주요 구성 요소로 이루어져 있다: 연결 함수(link function), 선형 예측자(linear predictor), 오차 분포(error distribution) 연결 함수(Link Function): 이는 응답 변수와 선형 예측자 사이의 관계를 명시한다. 가장 대표적인 예로는 로지스틱 함수가 있으며, 이는 로지스틱 회귀에서 사용된다. 선형 예측자(Linear Predictor): 독립 변수와 계수의 선형 결합으로 이루어진다. 이는.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 4. [공간통계] 공간불균등/집적/분리/다양성 (inequality/agglomeration/segregation/diversity analysis) 공간불균등(inequality), 공간집적(agglomeration), 공간분리(segregation), 그리고 공간다양성(diversity) 분석은 공간 데이터 분석의 중요한 주제로, 특히 도시 계획, 경제학, 사회학, 공중보건 등 다양한 분야에서 적용된다. 공간불균등(inequality): 이는 특정 지리적 영역 내에서 자원, 서비스, 또는 기회가 얼마나 불균등하게 분포되어 있는지를 측정한다. 예를 들어, 교육이나 의료 서비스가 어떤 지역에는 집중되어 있고, 다른 지역에는 부족한 경우가 이에 해당한다. Gini 계수, 로렌츠 곡선 등의 통계적 방법이 사용된다. 공간집적(agglomeration): 이는 특정 현상이나 업종, 인구 등이 공간적으로 얼마나 집중되어 있는지를 분석한다. 예를 들어, 기술 스.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 4. [공간통계] 베리오그램과 공간내삽 (variogram and spatial interpolation) 베리오그램(Variogram)과 공간 내삽(Spatial Interpolation)은 공간 데이터 분석에서 중요한 개념이다. 베리오그램은 두 지점 사이의 거리와 그 거리에서의 데이터 값의 변동성 사이의 관계를 표현하는 함수이다. 일반적으로 거리가 늘어남에 따라 변동성도 증가한다고 가정하는데, 이는 공간의 '거리-유사성' 원칙에 기반한다. 즉, 가까운 위치에 있는 데이터 포인트는 멀리 떨어진 데이터 포인트보다 더 유사할 것이라는 기대이다. 공간 내삽은 알려진 데이터 포인트를 바탕으로 알려지지 않은 위치에서의 값을 추정하는 방법이다. 공간 내삽 기법은 Kriging, Inverse Distance Weighting (IDW), Natural Neighbors 등 다양하게 있다. Kriging은 베리오그램을 .. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 4. 이전 1 2 3 4 다음 반응형