홍시의 씽크탱크

💖 Hongsi's Study/📊 통계･공간통계･공간최적화

[공간통계] 통계와 공간통계의 차이?

김 홍시 2024. 12. 9.

1. 분석 대상의 본질적 차이

통계

정의: 통계는 데이터 세트를 정량적으로 분석하여 평균, 분산, 상관관계, 회귀계수 등과 같은 요약값을 도출하거나 예측 모델을 구축하는 데 중점을 둡니다.
데이터 특성: 일반적으로 관측치 간의 순서나 위치는 고려되지 않으며, 데이터 포인트는 독립적이라고 가정합니다.
예:
- 설문조사 데이터를 사용해 소비자 만족도를 분석.
- 학생 성적과 출석률 간의 상관관계를 분석.

공간통계

정의: 공간통계는 데이터를 지리적 위치와 연결하여 분석하며, 공간적 상관성(spatial correlation), 공간적 이질성(spatial heterogeneity), 그리고 데이터의 지리적 분포를 분석합니다.
데이터 특성: 데이터 포인트가 지리적 위치와 연계되어 있으며, 공간적 관계와 의존성을 주요 분석 대상으로 합니다.
예:
- 지역별 범죄율의 군집 패턴 분석.
- 대기 오염의 공간적 분포와 건강 영향 간의 관계 파악.

2. 공간적 의존성(Spatial Dependency)의 중요성

통계

독립성 가정: 전통적 통계에서는 샘플이 독립적이고 동일한 분포를 따를 것을 가정(i.i.d.: independent and identically distributed)합니다. 데이터 포인트 간의 관계는 직접적으로 고려하지 않습니다.
공간적 정보의 비포함: 데이터에 위치 정보가 있더라도, 이를 분석에 활용하지 않는 경우가 많습니다.

공간통계

공간적 자기상관(Spatial Autocorrelation):
지리적 위치가 가까운 데이터는 서로 유사한 값을 가질 가능성이 크다는 특성을 분석합니다.
- 정량적 측정: Moran's I, Geary's C.
- 예: 주택 가격이 인접 지역에서 유사한 경향을 보이는지 확인.
공간적 이질성(Spatial Heterogeneity):
공간 내 데이터의 분포가 균일하지 않을 수 있다는 점을 반영. 특정 지역에서만 독특한 패턴이 나타날 수 있음.
- 예: 도시와 농촌 지역 간의 인구 밀도 차이.

3. 분석 기법의 차이

통계

데이터 간 관계를 분석하기 위해 주로 사용하는 기법:
- 기술 통계: 평균, 분산, 빈도 분석.
- 추론 통계: 가설 검정, 상관 분석, 회귀 분석.
- 머신러닝 모델: 랜덤포레스트, 선형회귀, 의사결정나무 등.
분석 대상이 공간적 맥락을 가지지 않기 때문에 위치 기반 변수를 사용하지 않습니다.

공간통계

지리적 패턴과 공간적 상관성을 분석하기 위해 특화된 기법 사용:
- 공간 자기상관 분석:
  - Moran's I, Geary's C: 공간적 클러스터링 정도를 측정.
- 공간 군집화:
  - Getis-Ord Gi*: 고온점(hotspot) 및 저온점(coldspot)을 탐지.
- 공간 회귀 분석:
  - OLS(Ordinary Least Squares)에 공간적 의존성을 추가한 기법.
  - SAR(Spatial Autoregressive Model), SEM(Spatial Error Model).
- 공간 예측 및 보간(Interpolation):
  - 크리깅(Kriging): 환경 데이터(예: 대기 오염)나 농업 데이터의 연속적 분포를 예측.

4. 도구 및 모델링 플랫폼

통계

전통적 통계 소프트웨어:
- R, Python의 pandas 및 statsmodels.
- SPSS, SAS.
머신러닝 프레임워크:
- scikit-learn, TensorFlow, PyTorch.

공간통계

GIS(Geographic Information Systems) 소프트웨어:
- ArcGIS: Spatial Analyst 툴을 통한 공간 통계 분석.
- QGIS: 무료 GIS 플랫폼으로 공간 통계 플러그인 지원.
공간 데이터 분석 라이브러리:
- R: sp, sf, tmap.
- Python: geopandas, PySAL, folium.
전문 분석 도구:
- GeoDa: 공간 자기상관 및 군집 분석.

5. 실제 사례

통계

전국적으로 시행된 설문조사 데이터를 바탕으로 소비자 행동 패턴 분석.
경제 데이터를 사용하여 소득과 지출 간의 관계 연구.

공간통계

범죄 데이터:
특정 도시의 범죄 데이터의 공간적 분포를 분석하여 치안 강화 지역을 선정.
환경 데이터:
대기오염 데이터의 공간적 분포를 분석해 공기질 저하 지역을 식별하고 정책 제안.
도시 계획:
공공시설(예: 공원, 병원)의 최적 입지를 선정해 접근성을 높임.

6. 이론적 배경

통계

이론: 확률 이론과 가설 검정.
주요 전제: 독립성, 정규성.

공간통계

이론: 토블러의 제1법칙(Tobler's First Law of Geography):
"모든 것은 모든 것과 관련이 있지만, 가까운 것이 더 관련이 있다."
주요 전제: 공간적 자기상관, 공간적 이질성.

7. 요약: 통계와 공간통계의 상호보완적 관계

통계는 데이터의 정량적 패턴과 관계를 분석하는 데 강점을 가지며, 공간적 문맥이 불필요한 경우 적합합니다.
공간통계는 위치 기반 데이터를 분석하여 공간적 패턴과 관계를 도출하며, 도시 계획, 환경 연구, 범죄 분석 등 공간적 맥락이 중요한 문제에 필수적입니다.

결론적으로, 두 분야는 데이터 특성과 연구 목적에 따라 선택적으로 활용하거나, 통합적으로 적용하여 더욱 심층적인 분석이 가능합니다.

저작자표시 비영리 동일조건 (새창열림)

'💖 Hongsi's Study > 📊 통계･공간통계･공간최적화' 카테고리의 다른 글

[통계] 면접 대비 통계 관련 기초 개념 모음 (0)	2024.12.09
[통계] p-value(유의확률)란? (0)	2024.12.09
[데이터 분석] 비즈니스 데이터 분석 절차 (0)	2024.10.01
로지스틱 회귀(Logistic Regression)와 AUC-ROC (0)	2024.03.24
[통계] 확률 분포 - 이산형 분포와 연속형 분포 (0)	2024.02.04

댓글

티스토리툴바