💖 Hongsi's Study/📊 통계・공간통계・공간최적화45 [통계 사이트] 전세계 국가별 통계청 사이트 링크 유럽 AlbaniaInstitute of Statistics (INSTAT)AndorraMinisteri de Finances, Servei d'EstudisAustriaStatistics AustriaBelarusThe Ministry of Statistics and Analysis of the Republic of BelarusBelgiumStatistics BelgiumBosnia and HerzegovinaFederal Office of Statistics / Agency for Statistics of Bosnia and Herzegovina The Republika Srpska Institute for StatisticsBulgariaNational Statistical Institute .. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2024. 12. 12. [통계] 면접 대비 통계 관련 기초 개념 모음 1. 기본 통계 개념1-1. 평균(mean), 중앙값(median), 최빈값(mode)의 차이와 사용 목적평균은 데이터를 모두 합산한 뒤 데이터의 개수로 나눈 값으로, 데이터의 전반적인 경향을 나타냅니다. 중앙값은 데이터를 크기 순서대로 정렬했을 때 가운데에 위치한 값으로, 극단값의 영향을 줄여 데이터의 중심 경향을 표현하는 데 유용하며, 최빈값은 가장 자주 등장하는 값으로, 주로 범주형 데이터 분석에 사용됩니다.1-2. 표준편차(standard deviation)와 분산(variance)의 차이분산은 데이터가 평균으로부터 얼마나 떨어져 있는지를 제곱해 평균 낸 값으로, 데이터 분포의 퍼짐 정도를 나타냅니다. 표준편차는 분산의 제곱근으로, 원 데이터와 동일한 단위를 가지며 데이터의 변동성을 직관적으로 이.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2024. 12. 9. [통계] p-value(유의확률)란? p-value(유의확률)는 통계적 가설검정에서 관찰된 데이터가 귀무가설(null hypothesis)이 참이라는 가정하에 나타날 확률을 의미합니다. 이는 가설검정에서 데이터가 얼마나 극단적인지를 평가하는 척도로 사용됩니다. 다음은 p-value의 주요 개념과 활용을 정리한 내용입니다:1. 귀무가설과 대립가설귀무가설 (H0H_0): 차이가 없거나 효과가 없다는 가정입니다. 예를 들어, "두 집단 간 평균 차이가 없다"는 가정입니다.대립가설 (H1H_1): 귀무가설과 반대되는 주장으로, 예를 들어 "두 집단 간 평균 차이가 있다"는 내용입니다.p-value는 귀무가설이 참일 때, 현재 관찰된 데이터 또는 그보다 극단적인 데이터가 나올 확률을 계산합니다.2. p-value의 해석p-value가 작을수록 귀무가.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2024. 12. 9. [공간통계] 통계와 공간통계의 차이? 1. 분석 대상의 본질적 차이통계정의: 통계는 데이터 세트를 정량적으로 분석하여 평균, 분산, 상관관계, 회귀계수 등과 같은 요약값을 도출하거나 예측 모델을 구축하는 데 중점을 둡니다.데이터 특성: 일반적으로 관측치 간의 순서나 위치는 고려되지 않으며, 데이터 포인트는 독립적이라고 가정합니다.예:설문조사 데이터를 사용해 소비자 만족도를 분석.학생 성적과 출석률 간의 상관관계를 분석.공간통계정의: 공간통계는 데이터를 지리적 위치와 연결하여 분석하며, 공간적 상관성(spatial correlation), 공간적 이질성(spatial heterogeneity), 그리고 데이터의 지리적 분포를 분석합니다.데이터 특성: 데이터 포인트가 지리적 위치와 연계되어 있으며, 공간적 관계와 의존성을 주요 분석 대상으로 합.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2024. 12. 9. [데이터 분석] 비즈니스 데이터 분석 절차 비즈니스 데이터 분석 절차는 데이터의 수집부터 인사이트 도출 및 의사결정 지원에 이르기까지 여러 단계를 포함합니다. 다음은 일반적인 비즈니스 데이터 분석 절차의 단계입니다:1. 문제 정의 및 목표 설정비즈니스 문제 정의: 분석의 목적과 해결하려는 비즈니스 문제를 명확히 정의합니다. 예를 들어, "고객 이탈률 감소", "매출 증가를 위한 마케팅 전략 도출", "서비스 개선 방안 도출" 등이 될 수 있습니다.목표 설정: 문제를 해결하기 위한 명확한 목표를 설정합니다. 예를 들어, "고객 이탈률 10% 감소" 또는 "월간 매출 20% 증가" 등의 구체적인 목표를 설정합니다.KPI(핵심 성과 지표) 정의: 성과를 측정할 수 있는 KPI를 설정하고, 이를 통해 분석 성과를 평가할 기준을 마련합니다.2. 데이터 수.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2024. 10. 1. 로지스틱 회귀(Logistic Regression)와 AUC-ROC 로지스틱 회귀 (Logistic Regression) 로지스틱 회귀는 분류 문제를 해결하기 위한 통계적 모델입니다. 주로 이진 분류 문제에 사용되지만, 다중 분류 문제에도 확장될 수 있습니다. 로지스틱 회귀는 선형 회귀와 비슷한 방식으로 데이터의 로지스틱 함수(Logistic function) 또는 시그모이드 함수(Sigmoid function)를 사용하여 출력값을 0과 1 사이의 확률로 변환합니다. 이 함수는 특정 이벤트의 발생 확률을 예측하는 데 사용되며, 예측된 확률은 결국 이벤트의 발생 여부(예: 0 또는 1)를 결정하는 데 사용됩니다. 로지스틱 회귀 모델은 다음과 같은 시그모이드 함수를 사용합니다: AUC-ROC AUC-ROC는 모델의 분류 성능을 평가하는 데 사용되는 지표입니다. AUC(Are.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2024. 3. 24. [통계] 확률 분포 - 이산형 분포와 연속형 분포 확률분포는 어떤 확률변수가 취할 수 있는 모든 값과 그 값이 나타날 확률을 설명하는 수학적 모델입니다. 확률변수란 무작위로 변할 수 있는 값을 나타내는 변수로, 예를 들어 주사위를 던졌을 때 나오는 눈금이나 학생의 시험 점수 등이 있습니다. 확률분포는 이러한 확률변수의 행동을 수학적으로 정의하고 예측하는 데 사용됩니다. 확률 분포는 크게 계량형(연속형) 분포와 계수형(이산형) 분포로 나눌 수 있습니다. 이 두 분류는 확률 변수가 취할 수 있는 값의 종류에 따라 구분됩니다. 이산형(계수형) 분포 (Discrete Probability Distribution) 계수형 분포는 확률 변수가 취할 수 있는 값이 셀 수 있는 경우에 해당합니다. 이는 확률 변수가 특정한 값을 취하는 확률이 명확하게 정의될 수 있음을.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2024. 2. 4. [일본 통계] 일본 도도부현 면적 (2023.10 기준) 면적 단위는 km2 전국 377974.8 1 홋카이도 83421.46 26 교토 부 4612.2 2 아오모리 현 9645.1 27 오사카 부 1905.34 3 이와테 현 15275.04 28 효고 현 8400.95 4 미야기 현 7282.29 29 나라 현 3690.94 5 아키타 현 11637.52 30 와카야마 현 4724.69 6 야마가타 현 9323.15 31 톳토리 현 3507.03 7 후쿠시마 현 13784.39 32 시마네 현 6707.81 8 이바라키 현 6097.56 33 오카야마 현 7114.6 9 토치기 현 6408.09 34 히로시마 현 8478.94 10 군마 현 6362.28 35 야마구치 현 6112.61 11 사이타마 현 3797.75 36 도쿠시마 현 4146.99 12 치.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 12. 22. [공간 통계] E2SFCA, G2SFCA E2SFCA(Enhanced Two-Step Floating Catchment Area)와 G2SFCA(Gravity Two-Step Floating Catchment Area)는 지리적 접근성 분석에 사용되는 두 가지 방법론입니다. 이들은 주로 의료 서비스, 교육, 소매점 등의 접근성을 평가하는 데 활용됩니다. 각 방법에 대해 전문적으로 설명하겠습니다. E2SFCA (Enhanced Two-Step Floating Catchment Area): E2SFCA는 Two-Step Floating Catchment Area(TSFCA) 방법의 확장 버전입니다. 이 방법론은 서비스 접근성을 두 단계로 평가합니다: 첫 번째 단계에서는 서비스 공급자의 위치에 가상의 'catchment' (서비스가 제.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 12. 8. [공간통계] GWR과 MGWR 차이 GWR(지리적 가중 회귀, Geographically Weighted Regression)와 MGWR(다중 지리적 가중 회귀, Multiscale Geographically Weighted Regression)는 공간 데이터 분석에서 사용되는 두 가지 방법론입니다. 이들의 주요 차이점을 설명하겠습니다. GWR (지리적 가중 회귀): GWR은 지리적 위치에 따라 회귀 계수가 변하는 모델입니다. 이 방법은 공간적으로 비균질한 데이터를 다룰 때 유용합니다. GWR은 각 관측치에 대해 지리적 위치를 고려하여 로컬 회귀 분석을 실시합니다. 이 모델은 각 지역의 특성을 반영하여 회귀 계수가 다르게 추정되며, 이를 통해 공간적 오토코릴레이션(자기상관) 문제를 해결할 수 있습니다. MGWR (다중 지리적 가중 회귀):.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 12. 8. [통계] 이중차분법(Double-Difference Method) 이중차분법(Double-Difference Method)은 경제학과 통계학에서 실험적이거나 준실험적 방법론에서 흔히 사용되는 기법입니다. 이 방법은 처리 효과(Treatment Effect)를 추정할 때 발생할 수 있는 선택 편향(Selection Bias)을 최소화하는 데 유용합니다. 이중차분법은 주로 관찰된 데이터를 이용할 때 사용되며, 무작위 대조 실험이 불가능하거나 실질적으로 수행되지 않았을 때 유용합니다. 기본 개념: 처리군(Treatment Group): 특정 정책이나 개입을 받는 그룹입니다. 대조군(Control Group): 처리 또는 개입을 받지 않는 그룹입니다. 이중차분법은 처리군과 대조군 모두에서 시간에 따른 변화를 비교하여 처리의 효과를 추정합니다. 이를 통해 개입 이전과 이후의 변.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 11. 7. [통계] 척도(scale)의 네 가지 종류 (명목 nominal/서열 ordinal/등간 interval/비율 ratio) 통계학에서 사용되는 척도(measure)는 데이터의 성질을 측정하거나 설명하기 위한 방법을 제공합니다. 주요한 척도는 다음과 같습니다: 명목 척도 (Nominal Scale) 정의: 단순히 카테고리나 라벨로 구분하는 척도입니다. 예시: 성별(남, 여), 혈액형(A, B, AB, O) 등 수학적 연산: 불가능 서열 척도 (Ordinal Scale) 정의: 카테고리 간에 순서가 있는 척도입니다. 예시: 학점(A, B, C, D, F), 설문 조사 응답(매우 만족, 만족, 보통, 불만족) 수학적 연산: 크기 비교 가능, 그러나 평균이나 표준편차 등을 계산하는 것은 무의미 등간 척도 (Interval Scale) 정의: 순서 뿐만 아니라 간격도 동일한 척도입니다. 예시: 섭씨 온도, IQ 지수 수학적 연산: 덧.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 9. 10. 이전 1 2 3 4 다음 반응형