💖 Hongsi's Study/📊 통계・공간통계・공간최적화59 [자격증] 빅데이터분석기사 정보 총 정리 : 필기, 실기 / 문항 / 문제 수 / 일정 / 주의사항 자격 소개 관련 근거 국가기술자격법 및 동법 시행령 빅데이터분석기사 정의 빅데이터 이해를 기반으로 빅데이터 분석 기획, 빅데이터 수집·저장·처리, 빅데이터 분석 및 시각화를 수행하는 실무자를 말한다. 빅데이터분석기사의 필요성 전 세계적으로 빅데이터가 미래성장동력으로 인식돼, 각국 정부에서는 관련 기업투자를 끌어내는 등 국가·기업의 주요 전략분야로 부상하고 있다. 국가와 기업의 경쟁력 확보를 위해 빅데이터 분석 전문가의 수요는 증가하고 있으나, 수요 대비 공급 부족으로 인력 확보에 어려움이 높은 실정이다. 이에 정부차원에서 빅데이터 분석 전문가 양성과 함께 체계적으로 역량을 검증할 수 있는 국가기술자격 수요가 높은 편이다. 빅데이터분석기사의 직무 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 5. [통계] 로지스틱 회귀분석이란? 로지스틱 회귀분석 - 종속변수가 범주형일 때 적용 가능한 회귀분석 모형 - 데이터의 종속변수가 특정 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 예측된 확률에 따라 가능성이 더 높은 범주로 분류하는 지도학습 알고리즘 로지스틱 회귀는 주로 이진 분류 문제를 해결하기 위해 사용되는 통계 모델입니다. 이진 분류란, 두 개의 선택지 중 하나를 고르는 문제를 의미해요. 예를 들어, "이 이메일은 스팸인가, 아닌가?"나 "이 환자가 특정 병에 걸릴 확률은 높은가, 낮은가?" 같은 질문들이죠. 로지스틱 회귀는 여러 가지 정보(변수라고 부릅니다)를 고려해서 '예' 또는 '아니오'로 답하는 확률을 계산해 줍니다. 만약 의료 분야에서 로지스틱 회귀를 사용한다면, 환자의 나이, 키, 몸무게, 혈압 등 다양한 정보를.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 5. [통계] 주성분분석과 요인분석 주성분분석 요인분석 공통점 - 원 데이터를 활용해 몇개의 새로운 변수를 생성함 - 변수축소나 데이터 요약에 사용됨 생성되는 변수의 수 통상적으로 2개 : 제1주성분과 제2주성분 지정된 개수 없음 생성되는 변수 명 제1주성분, 제2주성분 분석가가 직접 명명 생성되는 변수들의 관계 제1주성분이 가장 중요, 그 다음으로 제2주성분이 중요 대등 관계 : 어떤 것이 더 중요하다는 의미가 존재하지 않음 분석방법 의미 목표변수를 잘 예측/분류하기 위해 기존 변수들의 선형결합으로 이루어진 몇 개의 주성분을 찾아냄 목표변수를 고려하지 않고, 주어진 변수들을 비슷한 성격으로 묶어 새로운 변수를 생성 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 5. [통계] 독립변수와 종속변수 X Y 원인 결과 독립변수 종속변수 외생변수 내생변수 설명변수 반응변수 예측변수 결과변수 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 5. [베이즈 통계] 베이즈 통계의 장점 및 적용 예 장점 • 새로운 자료가 관측되었을 때, 정보를 업데이트 하는 것이 자연스러움 과거의 사후분포가 현재의 사전분포가 됨 • (전문가 의견의 이용) 과거의 경험으로부터 강한 사전 정보 혹은 의견이 있을 때, 이를 추론에 이용할 수 있음 • (계층모형) 비슷한 값들을 동시에 추정해야 할 때, 주변의 정보를 종합해서 보다 정확히 추론할 수 있음 • 구간 추정과 가설 검정의 결과의 해석이 자연스러움 "세타가 신뢰구간에 들어갈 확률이 95%다" • 추론을 할 때, 대표본이론을 이용한 근사를 이용하지 않아도 된다. 베이즈 추론은 유한 표본에서도 정확한 추론분포를 이용한다. • 빈도론 추론 방법이 베이즈 방법의 일종이 되는 경우가 많다. 적용 예 - Alan Turing이 2차 세계대전에서 독일군의 암호를 풀 때 사전분.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 3. [베이즈 통계] 신뢰구간(confidence interval) vs. 신용구간 (credible interval) 빈도주의 vs. 베이즈 주의 확률을 어떻게 해석할 것이냐에서부터 출발함. 베이즈는 모든 불확실성을 확률로 표현할 수 있다고 생각함. 이것이 가장 결정적인 포인트임. 그러나 빈도주의자들은 통계적 추론의 문제에서 모르는 것이 세타, 그리고 세타에 따라 변하는 확률분포가 있을 때 세타를 모른다는 것 = 불확실하다는 것 이때 베이즈주의자들은 아는 정도를 확률분포로 표현할 수 있다고 생각함. 하지만 빈도주의자들은 확률분포로 표현하지 않음. 데이터를 보기 전에 압정 던지기 문제에 대해 확률 분포로 표현한 것이 사전분포, 그 후 본 것이 사후분포. 확률로 표현하면 베이즈통계가 되고 세타를 고정된 값으로 표현하면 빈도주의가 됨. 그렇기 때문에 불확실성을 표현하는 형태가 달라짐. 신용구간에서는 사후분포= 세타가 어디에 .. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 2. 3. [통계] OLS 추정 (최소제곱법/최소자승법) 최소제곱법 : OLS (Ordinary Least Squares) 잔차제곱합을 최소로 만드는 회귀계수, 직선을 찾는 것. 총 제곱합 (TSS; Total Sum of Squares) = 설명제곱합 (ESS; Explained Sum of Squares) + 잔차제곱합 (RSS; Residual Sum of Squares) 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 1. 26. [통계] 오차(error)와 잔차(residual)의 차이 - 오차 : 모집단의 실제값과 회귀분석을 통해 적합된 값의 차이 - 잔차 : 표본에서 나온 관측값과 회귀분석을 통해 적합된 값의 차이 모집단의 실제값은 알기 어려우므로 회귀모형에서 정확한 오차항은 측정하기 어렵다. 따라서 잔차를 오차항의 관찰값으로 해석해, 오차항에 대한 가정들의 성립 여부를 조사한다. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 1. 26. [공간최적화] 커버링 문제, 메디언 문제, 센터 문제 공공 시설물은 접근하기 편해야 하며(공간효율성), 서비스에 있어 소외받는 사람이 없도록 해야한다(공간형평성). 이러한 공익을 지향하는 입지 문제는 주로 커버링 문제, 메디언 문제, 센터 문제로 연구된다. 1. 커버링 문제 (covering problem) 목적 : 제한된 서비스 도달범위(물리적 거리 또는 시간거리)를 가진 시설물의 서비스를 받을 수 있 는 수요를 최대화시키도록 시설물을 입지시키는 것 종류 1) LSCP(Location Set Covering Problem) 제한된 도달범위를 가지는 서비스 시설물이 모든 수요지점을 포괄하면서 최소 개수의 시설물 입지를 구함 2) MCLP(Maximal Covering Location Problem) (Church and ReVelle, 1974) 모든 수요.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2023. 1. 26. [공간통계] 지리가중회귀 (GWR) 회귀분석의 모든 통계량 (회귀계수, 결정계수)은 공간적 이질성을 보여줌 모든 데이터 포인트에 대해 독자적인 회귀분석을 진행함 인과성의 공간적 변동을 보여줌 지리적 가중값은 커널함수를 이용하여 결정함 커널 : adaptive spatial kernel vs. fixed spatial kernel - bandwidth adaptive spatial kernel vs. fixed spatial kernel fixed : 커널 범위가 정해짐 adpative : 커널 내에 속하는 지점 개수가 정해짐 => 커널의 범위는 가변적임 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2022. 11. 20. [공간통계] 선형회귀분석 (linear regression)의 4가지 기본가정과 공간회귀분석 선형회귀분석의 4가지 기본가정 선형회귀분석은 아래 네 가지의 가정을 만족해야 한다. (1) 독변~종변 간의 선형성 : '선형' 회귀분석이므로 독립변수가 종속변수를 예측하는 데에 선형성을 만족해야 한다. **오차 : 종속변수의 예측값과 실제 관측값 간의 차이** (2) 오차의 독립성 : 오차의 분산이 독립변수 값과 무관하게 일정해야 한다. 산점도를 그리면 잔차와 독립변수 간에 아무 관련성이 없도록 점이 고르게 분포해야 한다. 더빈왓슨 검정을 수행하면 오차항이 독립성을 만족하는지 검정 가능하다. 값이 2에 가까울수록 오차항의 자기상관이 없음을 의미하고, 0에 가까울수록 양의 상관관계가, 4에 가까울소록 음의 상관관계가 있음을 의미한다. => 0 혹은 4에 가까우면 잔차들간의 상관관계가 있어 회귀식이 부적합하.. 💖 Hongsi's Study/📊 통계・공간통계・공간최적화 2022. 10. 24. 이전 1 2 3 4 5 다음 반응형