💖 Hongsi's Study/📊 통계・공간통계・공간최적화41 [통계 프로그램] SAS 무료로 사용하기 :: SAS OnDemand for Academics(ODA) 버전 [Statistics Program] Use SAS free of charge: SAS OnDemand for Academic (ODA) version SAS 프로그램을 무료로 사용할 수 있는 과정을 소개한다. 1. SAS 회원가입하기 https://www.sas.com/profile/ui/#/create?fromURI=https:%2F%2Fauth.sas.com%2Fapp%2Fsasinstituteinc_ssologinsascom_1%2Fexk32x17z3ddVtwmJ2p7%2Fsso%2Fsaml%3FSAMLRequest%3DnVRLj9owEL7vr4h8h7xYQi1ASkFVqbYVBbqHXlZDMtm16tipx1lof33twFKqbqnELZp8Hn%252BvZExQy4bnrX1SK%2FzeItkg2N.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 7. 10. [통계] 다중공선성 vs. 완전공선성 (헷갈리는 통계 개념 정리) 다중공선성(Multicollinearity) 다중공선성(Multicollinearity)은 회귀분석에서 독립변수들 간에 강한 선형 관계가 존재하는 경우를 말합니다. 즉, 하나의 독립변수가 다른 독립변수로 잘 예측될 수 있는 상황을 의미합니다. 이러한 상황에서 회귀모형의 성능을 평가하거나 독립변수들의 영향력을 해석하는 것이 어려워질 수 있습니다. 다중공선성은 주로 상관계수나 분산팽창계수(VIF, Variance Inflation Factor)를 통해 평가됩니다. 상관계수가 1에 가까울수록 강한 선형 관계가 있음을 나타내며, VIF 값이 높을수록 다중공선성의 정도가 높다고 판단할 수 있습니다. 일반적으로 VIF 값이 10을 넘어가면 다중공선성의 문제가 심각하다고 판단할 수 있습니다. 다중공선성이 존재하는 경.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 6. 21. [공간최적화] 다목적 최적화 문제(multi-objective optimization problem) 공간 최적화 문제들은 일반적으로 특정한 목적함수 (objective function)를 정의하여 이를 최적화하는 구조 를 가지고 있다. 목적함수는 문제의 특성에 따라 달라 질 수 있다. 예컨대 소방서와 같은 공공 시설의 경우, 잠재적 소방 및 긴급구호의 수요지까지의 거리 또는 출동시간을 최소화시키는 것이 목적으로 정의될 수 있으며, 백화점 및 대형쇼핑 센터의 경우 최대한 많은 고객들을 확보할 수 있는 장소에 입지하는 것이 목적 이될수 있다. 이러한 목적함수는 문제에 있어 가장 중요한 단일 가치로 정의되는 것이 일반적이지만, 여러 가지의 상충하는 목적함수를 동시에 고려하는 형태로 확장될 수 있다. 본 연구의 사례처럼 비용을 최소화하는 것과 접근성을 최대화하는 것은 접근성이 좋은 지역은 지가나 임대료가 비싸.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 4. 23. [통계] min - max 표준화 민맥스(Min-Max) 표준화는 데이터를 0과 1 사이의 값으로 변환하는 방법입니다. 이 방법은 모든 특성(feature)을 동일한 스케일로 변환하며, 데이터의 분포를 일정하게 조정할 수 있습니다. 데이터를 민맥스 스케일링하는 방법은 각 특성의 최솟값(minimum)을 0으로, 최댓값(maximum)을 1로 지정하고, 나머지 값들을 그 범위에 맞게 비례하여 조정합니다. 따라서 식으로 표현하면 아래와 같습니다. (x - min) / (max - min) 여기서 x는 해당 특성(feature)의 값이며, min은 해당 특성의 최솟값, max는 해당 특성의 최댓값입니다. 이 방법을 통해 모든 특성이 동일한 범위(0과 1)에 속하게 되며, 분포가 일정하게 조정됩니다. 하지만 이 방법은 이상치(outlier)가 .. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 4. 13. [공간통계] 공간회귀 - Spatial lag model, Spatial error model 공간적 선형 회귀분석의 종류 * OLS : 비공간적, 전역적 회귀분석 * 전역적 공간회귀 - 공간적 선형 회귀 : 공간지체모형, 공간오차모형이 있음. (잔차의 공간적 자기상관을 제거 -> 예측값의 변화 & 회귀계수의 변화) - ESF 회귀분석 : 고유벡터공간필터링 (eigenvector spatial filtering) 기법에 기반한 회귀분석 * 국지적 공간회귀 : GWR (지리가중회귀). 공간단위별로 서로 다른 회귀분석 결과가 도출됨 Spatial lag model : 공간 지체 모형 Spatial error model : 공간 오차 모형 가장 널리 사용되어 온 공간적 회귀모형은 주로 공간계량경제학(spatial econometrics)에 기반한 다양한 종류의 공간자기회귀모형(spatial autore.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 22. [데이터 시각화] 데이터 별 시각화 방법 수치형 데이터 시각화 - 히스토그램 - 커널밀도 추정 - 분포도 - 러그플롯 범주형 데이터 시각화 - 막대그래프 - 포인트플롯 - 박스플롯 - 바이올린플롯 - 카운트플롯 데이터 관계 시각화 - 히트맵 - 라인플롯 - 산점도 - 산점도 + 회귀선 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 19. [자격증] 빅데이터분석기사 정보 총 정리 : 필기, 실기 / 문항 / 문제 수 / 일정 / 주의사항 자격 소개 관련 근거 국가기술자격법 및 동법 시행령 빅데이터분석기사 정의 빅데이터 이해를 기반으로 빅데이터 분석 기획, 빅데이터 수집·저장·처리, 빅데이터 분석 및 시각화를 수행하는 실무자를 말한다. 빅데이터분석기사의 필요성 전 세계적으로 빅데이터가 미래성장동력으로 인식돼, 각국 정부에서는 관련 기업투자를 끌어내는 등 국가·기업의 주요 전략분야로 부상하고 있다. 국가와 기업의 경쟁력 확보를 위해 빅데이터 분석 전문가의 수요는 증가하고 있으나, 수요 대비 공급 부족으로 인력 확보에 어려움이 높은 실정이다. 이에 정부차원에서 빅데이터 분석 전문가 양성과 함께 체계적으로 역량을 검증할 수 있는 국가기술자격 수요가 높은 편이다. 빅데이터분석기사의 직무 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 5. [통계] 로지스틱 회귀분석이란? 로지스틱 회귀분석 - 종속변수가 범주형일 때 적용 가능한 회귀분석 모형 - 데이터의 종속변수가 특정 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 예측된 확률에 따라 가능성이 더 높은 범주로 분류하는 지도학습 알고리즘 로지스틱 회귀는 주로 이진 분류 문제를 해결하기 위해 사용되는 통계 모델입니다. 이진 분류란, 두 개의 선택지 중 하나를 고르는 문제를 의미해요. 예를 들어, "이 이메일은 스팸인가, 아닌가?"나 "이 환자가 특정 병에 걸릴 확률은 높은가, 낮은가?" 같은 질문들이죠. 로지스틱 회귀는 여러 가지 정보(변수라고 부릅니다)를 고려해서 '예' 또는 '아니오'로 답하는 확률을 계산해 줍니다. 만약 의료 분야에서 로지스틱 회귀를 사용한다면, 환자의 나이, 키, 몸무게, 혈압 등 다양한 정보를.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 5. [통계] 주성분분석과 요인분석 주성분분석 요인분석 공통점 - 원 데이터를 활용해 몇개의 새로운 변수를 생성함 - 변수축소나 데이터 요약에 사용됨 생성되는 변수의 수 통상적으로 2개 : 제1주성분과 제2주성분 지정된 개수 없음 생성되는 변수 명 제1주성분, 제2주성분 분석가가 직접 명명 생성되는 변수들의 관계 제1주성분이 가장 중요, 그 다음으로 제2주성분이 중요 대등 관계 : 어떤 것이 더 중요하다는 의미가 존재하지 않음 분석방법 의미 목표변수를 잘 예측/분류하기 위해 기존 변수들의 선형결합으로 이루어진 몇 개의 주성분을 찾아냄 목표변수를 고려하지 않고, 주어진 변수들을 비슷한 성격으로 묶어 새로운 변수를 생성 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 5. [통계] 독립변수와 종속변수 X Y 원인 결과 독립변수 종속변수 외생변수 내생변수 설명변수 반응변수 예측변수 결과변수 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 5. [베이즈 통계] 베이즈 통계의 장점 및 적용 예 장점 • 새로운 자료가 관측되었을 때, 정보를 업데이트 하는 것이 자연스러움 과거의 사후분포가 현재의 사전분포가 됨 • (전문가 의견의 이용) 과거의 경험으로부터 강한 사전 정보 혹은 의견이 있을 때, 이를 추론에 이용할 수 있음 • (계층모형) 비슷한 값들을 동시에 추정해야 할 때, 주변의 정보를 종합해서 보다 정확히 추론할 수 있음 • 구간 추정과 가설 검정의 결과의 해석이 자연스러움 "세타가 신뢰구간에 들어갈 확률이 95%다" • 추론을 할 때, 대표본이론을 이용한 근사를 이용하지 않아도 된다. 베이즈 추론은 유한 표본에서도 정확한 추론분포를 이용한다. • 빈도론 추론 방법이 베이즈 방법의 일종이 되는 경우가 많다. 적용 예 - Alan Turing이 2차 세계대전에서 독일군의 암호를 풀 때 사전분.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 3. [베이즈 통계] 신뢰구간(confidence interval) vs. 신용구간 (credible interval) 빈도주의 vs. 베이즈 주의 확률을 어떻게 해석할 것이냐에서부터 출발함. 베이즈는 모든 불확실성을 확률로 표현할 수 있다고 생각함. 이것이 가장 결정적인 포인트임. 그러나 빈도주의자들은 통계적 추론의 문제에서 모르는 것이 세타, 그리고 세타에 따라 변하는 확률분포가 있을 때 세타를 모른다는 것 = 불확실하다는 것 이때 베이즈주의자들은 아는 정도를 확률분포로 표현할 수 있다고 생각함. 하지만 빈도주의자들은 확률분포로 표현하지 않음. 데이터를 보기 전에 압정 던지기 문제에 대해 확률 분포로 표현한 것이 사전분포, 그 후 본 것이 사후분포. 확률로 표현하면 베이즈통계가 되고 세타를 고정된 값으로 표현하면 빈도주의가 됨. 그렇기 때문에 불확실성을 표현하는 형태가 달라짐. 신용구간에서는 사후분포= 세타가 어디에 .. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 3. 이전 1 2 3 4 다음 반응형