💖 Hongsi's Study/📊 통계・공간통계・공간최적화

[통계] 면접 대비 통계 관련 기초 개념 모음

김 홍시 2024. 12. 9.
반응형

1. 기본 통계 개념

1-1. 평균(mean), 중앙값(median), 최빈값(mode)의 차이와 사용 목적
평균은 데이터를 모두 합산한 뒤 데이터의 개수로 나눈 값으로, 데이터의 전반적인 경향을 나타냅니다. 중앙값은 데이터를 크기 순서대로 정렬했을 때 가운데에 위치한 값으로, 극단값의 영향을 줄여 데이터의 중심 경향을 표현하는 데 유용하며, 최빈값은 가장 자주 등장하는 값으로, 주로 범주형 데이터 분석에 사용됩니다.

1-2. 표준편차(standard deviation)와 분산(variance)의 차이
분산은 데이터가 평균으로부터 얼마나 떨어져 있는지를 제곱해 평균 낸 값으로, 데이터 분포의 퍼짐 정도를 나타냅니다. 표준편차는 분산의 제곱근으로, 원 데이터와 동일한 단위를 가지며 데이터의 변동성을 직관적으로 이해하는 데 유용합니다.

1-3. 상관관계(correlation)와 인과관계(causation)의 차이
상관관계는 두 변수 간의 관계가 얼마나 강한지를 나타내며, 두 변수의 변화가 비슷한 방향으로 일어나는지 확인합니다. 반면, 인과관계는 한 변수가 다른 변수에 직접적인 영향을 미치는 원인과 결과의 관계를 의미하며, 실험적 검증이 필요합니다.


2. 데이터 분포

2-1. 정규분포(normal distribution)의 특징
정규분포는 데이터가 평균을 중심으로 좌우 대칭을 이루며 종 모양의 분포를 가지는 데이터 분포입니다. 평균, 중앙값, 최빈값이 동일하며, 데이터의 68%, 95%, 99.7%가 각각 평균으로부터 1, 2, 3 표준편차 범위 안에 포함됩니다.

2-2. 왜도(skewness)와 첨도(kurtosis)
왜도는 데이터 분포의 비대칭성을 측정하며, 첨도는 분포의 꼬리가 두꺼운 정도를 나타냅니다. 왜도는 양수면 오른쪽으로 치우치고 음수면 왼쪽으로 치우치며, 첨도는 높으면 극단값의 발생 가능성이 높다는 것을 의미합니다.


3. 표본(sample)과 모집단(population)

3-1. 표본과 모집단의 차이
모집단은 연구 대상이 되는 전체 집단을 의미하며, 표본은 모집단에서 선택된 일부 데이터를 뜻합니다. 표본은 모집단의 특성을 추정하거나 가설을 검정하는 데 사용됩니다.

3-2. 표본추출(sampling) 방법
확률 표본추출은 모든 요소가 선택될 확률이 동일하며, 대표성을 보장하지만 시간이 많이 소요됩니다. 비확률 표본추출은 빠르고 간편하지만 대표성이 떨어질 수 있습니다.


4. 가설 검정(Hypothesis Testing)

4-1. 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)
귀무가설은 연구에서 증명하고자 하는 주장을 반박하는 기본 가설이며, 대립가설은 이를 반박하거나 대체하려는 연구자가 주장하는 가설입니다. 가설 검정의 목적은 귀무가설을 기각할 수 있는지를 통계적으로 판단하는 것입니다.

4-2. p-value란 무엇이며, 이를 어떻게 해석하나요?
p-value는 귀무가설이 참이라는 가정하에 관측된 데이터가 나타날 확률을 나타냅니다. p-value가 설정된 유의수준(예: 0.05)보다 작으면 귀무가설을 기각합니다.

4-3. 일종 오류(Type I error)와 이종 오류(Type II error)
일종 오류는 귀무가설이 참인데도 이를 잘못 기각하는 오류입니다. 반대로, 이종 오류는 귀무가설이 거짓인데도 이를 기각하지 못하는 오류입니다.


5. 회귀분석

5-1. 단순선형회귀와 다중선형회귀의 차이
단순선형회귀는 종속변수와 하나의 독립변수 간의 관계를 모델링하며, 다중선형회귀는 여러 독립변수와 종속변수 간의 관계를 분석합니다. 다중선형회귀는 독립변수 간 상호작용이나 다중공선성을 고려해야 합니다.

5-2. 결정계수(coefficient of determination, R²)
R²는 모델이 종속변수의 변동을 얼마나 설명하는지를 나타내며, 0에서 1 사이의 값을 가집니다. 값이 클수록 모델이 데이터를 잘 설명한다는 것을 의미합니다.


6. 확률과 통계

6-1. 확률과 조건부 확률
확률은 특정 사건이 일어날 가능성을 수치로 나타낸 것이며, 조건부 확률은 특정 조건이 주어졌을 때 다른 사건이 발생할 확률을 의미합니다. 조건부 확률은 사건 간의 종속성을 분석하는 데 사용됩니다.

6-2. 베이즈 정리(Bayes' theorem)
베이즈 정리는 사전 확률을 사용해 새로운 정보가 주어졌을 때 조건부 확률을 계산하는 방법입니다. 이는 의료 진단이나 분류 문제 등 다양한 의사결정 문제에 활용됩니다.


7. 데이터 처리 및 분석

7-1. 이상치(outlier)를 탐지하고 처리하는 방법
이상치는 박스플롯이나 IQR(사분위 범위) 또는 Z-스코어를 사용하여 탐지할 수 있습니다. 처리 방법으로는 제거, 대체, 또는 로버스트 기법을 사용하여 모델의 영향을 최소화하는 방법이 있습니다.

7-2. 데이터 정규화를 왜 수행하나요?
정규화는 데이터의 범위를 일정하게 조정하여 모델이 특정 변수에 지나치게 의존하지 않도록 하기 위해 수행됩니다. 예를 들어, Min-Max Scaling은 데이터를 [0, 1] 범위로 조정하며, Z-score Normalization은 평균 0, 표준편차 1로 스케일링합니다.


8. 실무 적용

8-1. 데이터 분석 프로젝트에서 통계 활용 예
고객 세그먼트를 구분하기 위해 군집 분석을 적용하거나, 매출 증대를 위해 회귀분석으로 광고 효과를 평가할 수 있습니다. 통계는 문제를 정의하고 데이터를 기반으로 한 인사이트를 도출하는 데 핵심적인 역할을 합니다.

8-2. A/B 테스트의 기본 개념과 실행 과정
A/B 테스트는 두 가지 이상의 변형 중 최적의 옵션을 비교하기 위한 실험 기법입니다. 실험군과 통제군을 나누고, 각 집단의 성과를 비교하여 유의미한 차이가 있는지 검증합니다.


9. 통계적 추정 (Statistical Estimation)

9-1. 점추정(point estimation)과 구간추정(interval estimation)의 차이
점추정은 모집단의 특정 파라미터를 단일 값으로 추정하는 반면, 구간추정은 추정값이 포함될 것으로 예상되는 값의 범위를 제공합니다. 구간추정은 불확실성을 포함하므로 보다 신뢰할 수 있는 추정을 제공합니다.

9-2. 신뢰구간(confidence interval)이란?
신뢰구간은 모집단의 파라미터가 특정 확률(예: 95%)로 포함될 것으로 예상되는 값의 범위를 나타냅니다. 신뢰구간의 폭은 표본 크기와 표준 오차에 의해 영향을 받습니다.


10. 데이터 분포 분석

10-1. 데이터 분포를 시각화하는 방법
히스토그램은 데이터의 빈도를 시각화하며, 박스플롯은 데이터의 분포와 이상치를 한눈에 보여줍니다. 각각은 데이터의 분포 특성과 이상치를 이해하는 데 사용됩니다.

10-2. 로그 변환(log transformation)을 사용하는 이유
로그 변환은 데이터의 스케일을 줄이고, 비대칭 데이터의 분포를 정규에 가깝게 만듭니다. 이는 회귀 분석에서 비선형 관계를 다루는 데도 유용합니다.

10-3. 이항분포, 포아송분포, 정규분포의 차이
이항분포는 성공/실패와 같은 이산 사건의 발생을 모델링하며, 포아송분포는 드문 사건의 발생 빈도를 모델링합니다. 정규분포는 연속 데이터의 분포를 나타내며 평균과 표준편차로 정의됩니다.


11. 카이제곱 검정 (Chi-Square Test)

11-1. 카이제곱 검정의 사용 시점
카이제곱 검정은 두 범주형 변수 간의 독립성을 확인하거나, 관측 빈도가 기대 빈도와 일치하는지 검정할 때 사용됩니다. 예를 들어, 설문조사 데이터에서 변수 간 관계를 분석할 수 있습니다.

11-2. 자유도(degree of freedom)란?
자유도는 데이터가 자유롭게 변할 수 있는 정도를 나타내며, 보통 “범주의 개수 - 1”로 계산됩니다. 이는 검정의 신뢰성을 평가하는 데 사용됩니다.

 


12. 분산분석 (ANOVA)

12-1. 일원 분산분석(One-Way ANOVA)와 이원 분산분석(Two-Way ANOVA)
일원 분산분석은 하나의 독립변수가 여러 수준으로 나뉠 때 평균 간의 차이를 검정합니다. 이원 분산분석은 두 개의 독립변수와 이들의 상호작용 효과를 분석합니다.

12-2. ANOVA의 가정(assumptions)
ANOVA는 독립성, 정규성, 등분산성을 가정합니다. 데이터가 이러한 가정을 만족하지 않으면 결과가 왜곡될 수 있습니다.

12-3. ANOVA와 t-test의 차이점
t-test는 두 그룹 간의 평균 차이를 검정하는 데 사용되며, ANOVA는 세 그룹 이상의 평균 차이를 검정할 때 유용합니다. ANOVA는 여러 t-test를 수행하는 것보다 오류를 줄이는 데 효과적입니다.


13. 통계 모델 평가

13-1. 혼동행렬(confusion matrix)이란?
혼동행렬은 분류 모델의 예측 결과를 실제 클래스와 비교하여 나타낸 표입니다. 이를 사용해 정확도, 정밀도, 재현율, F1 점수와 같은 성능 지표를 계산할 수 있습니다.

13-2. AUC-ROC 곡선이란?
AUC-ROC 곡선은 분류 모델의 성능을 평가하기 위해 사용되며, True Positive Rate와 False Positive Rate의 관계를 시각화합니다. AUC 값이 1에 가까울수록 모델의 성능이 뛰어납니다.

13-3. 과적합(overfitting)과 과소적합(underfitting)
과적합은 모델이 학습 데이터에만 지나치게 적합해 새로운 데이터에 대한 일반화 능력이 떨어지는 상태입니다. 이를 방지하기 위해 교차 검증, 규제(regularization), 더 많은 데이터를 사용하는 방법을 사용할 수 있습니다.


14. 데이터 전처리 (Data Preprocessing)

14-1. 결측값(missing values)을 처리하는 방법
결측값은 평균 대체, 중앙값 대체, 또는 KNN과 같은 알고리즘으로 예측 대체할 수 있습니다. 데이터 손실을 최소화하면서 분석에 미치는 영향을 줄이는 것이 중요합니다.

14-2. 데이터의 왜도(skewness) 조정
로그 변환, 제곱근 변환, 박스-콕스 변환과 같은 방법을 사용해 데이터를 정규 분포에 가깝게 조정할 수 있습니다. 이는 분석 결과의 신뢰도를 높이는 데 유용합니다.

14-3. 차원 축소와 PCA
PCA는 데이터를 저차원 공간으로 변환하여 데이터의 정보를 최대한 보존하면서 차원을 줄이는 기법입니다. 이는 시각화나 계산 효율성을 높이는 데 사용됩니다.


15. 시계열 데이터 (Time Series Data)

15-1. 시계열 데이터의 구성 요소
추세는 데이터의 장기적 방향성을, 계절성은 주기적 변동을, 불규칙성은 설명할 수 없는 무작위 변동을 의미합니다. 이 요소들을 분리하면 데이터의 특성을 더 명확히 분석할 수 있습니다.

15-2. 이동평균(moving average)와 지수평활법(exponential smoothing)
이동평균은 데이터를 평활화하여 단기 변동을 제거하고, 지수평활법은 최근 데이터에 더 큰 가중치를 부여해 예측 정확도를 높이는 데 사용됩니다.

15-3. 자기상관(autocorrelation)
자기상관은 시간에 따라 데이터 간의 연관성을 측정하며, ACF(Autocorrelation Function)를 사용해 평가합니다. 이는 데이터의 패턴이나 예측 가능성을 분석하는 데 유용합니다.


16. 실험 설계 (Experimental Design)

16-1. 통제군(control group)과 실험군(experimental group)
통제군은 실험 처리를 받지 않는 그룹이고, 실험군은 처리를 받는 그룹입니다. 두 그룹 간의 차이를 비교하여 처리 효과를 평가합니다.

16-2. 블록 설계(block design)와 요인 설계(factorial design)
블록 설계는 외부 변수를 통제하기 위해 유사한 특성을 가진 그룹으로 나누는 방식입니다. 요인 설계는 여러 독립변수의 영향을 동시에 분석하는 실험 설계입니다.

16-3. 혼란 변수(confounding variable)
혼란 변수는 독립변수와 종속변수 간의 관계를 왜곡시키는 변수로, 실험 설계나 통계적 통제를 통해 제거해야 합니다.


(계속)


17. 확률분포 (Probability Distributions)

17-1. 정규분포의 68-95-99.7 규칙(3시그마 법칙)
정규분포에서는 데이터의 약 68%가 평균에서 1표준편차 이내, 95%가 2표준편차 이내, 99.7%가 3표준편차 이내에 포함됩니다. 이는 데이터 분포를 이해하고 이상치를 탐지하는 데 활용됩니다.

17-2. 기하분포(geometric distribution)와 지수분포(exponential distribution)
기하분포는 이산적 사건의 첫 성공까지 실패 횟수를 모델링하며, 지수분포는 연속적 사건 간의 시간 간격을 모델링합니다. 기하분포는 이산 확률분포, 지수분포는 연속 확률분포에 속합니다.

17-3. 몬테카를로 시뮬레이션(Monte Carlo Simulation)
몬테카를로 시뮬레이션은 랜덤 샘플링을 사용하여 문제를 반복적으로 시뮬레이션하고, 결과를 분석하여 복잡한 문제를 해결합니다. 주로 금융, 물류, 과학 등 불확실성이 높은 문제에 활용됩니다.


18. 통계 소프트웨어 및 도구

18-1. Python, R 또는 Excel에서 통계 작업 경험
Python에서는 Pandas와 Numpy로 데이터를 처리하고, Scipy와 Statsmodels로 통계 분석을 수행할 수 있습니다. R은 통계 분석과 시각화에 특화된 언어로, ggplot2와 dplyr 같은 패키지가 강력합니다.

18-2. Pandas와 Numpy를 사용한 데이터 처리
Pandas는 데이터 프레임 형식으로 데이터를 조작하고, Numpy는 고성능 배열 연산을 제공합니다. 예를 들어, Pandas의 groupby는 데이터를 집계하고 요약하는 데 유용합니다.

18-3. Scipy 또는 Statsmodels로 가설 검정 수행
Scipy의 ttest_ind는 두 그룹의 평균 차이를 검정할 수 있으며, Statsmodels는 다양한 회귀 분석 및 모델 평가 기능을 제공합니다. 이를 통해 데이터의 통계적 유의성을 검증할 수 있습니다.


19. 고급 통계 개념

19-1. 중심극한정리(Central Limit Theorem)
중심극한정리는 표본 크기가 충분히 클 경우, 표본평균의 분포가 정규분포에 가까워진다는 이론입니다. 이는 통계 추론에서 표본분포를 기반으로 한 가정을 가능하게 만듭니다.

19-2. 공분산 행렬(covariance matrix)
공분산 행렬은 다변량 데이터의 각 변수 간 공분산을 나타내며, 변수 간 상관관계를 분석하거나 PCA에 사용됩니다. 대각선 요소는 각 변수의 분산, 비대각선 요소는 변수 간의 공분산을 나타냅니다.

19-3. 비모수 검정(non-parametric test)와 모수 검정(parametric test)
모수 검정은 데이터가 특정 분포를 따른다는 가정을 기반으로 하며, 비모수 검정은 분포 가정 없이 데이터를 분석합니다. 비모수 검정은 작은 표본이거나 분포를 알 수 없는 경우에 적합합니다.


20. 통계 윤리

20-1. 통계 분석 결과를 왜곡 없이 전달하는 방법
결과를 명확히 전달하고, 선택적 데이터 보고를 피하며, 분석 과정과 한계를 투명하게 공개해야 합니다. 시각화나 설명이 과장되지 않도록 주의하는 것도 중요합니다.

20-2. 분석 결과의 편향(bias)을 피하는 방법
무작위 표본추출, 충분한 표본 크기 확보, 분석 과정에서 편향이 발생할 수 있는 요소를 지속적으로 검토해야 합니다. 데이터 수집 단계에서부터 설계된 편향도 고려해야 합니다.

20-3. p-hacking이란?
p-hacking은 연구자가 유의미한 p-value를 얻기 위해 데이터를 반복적으로 분석하거나 유리한 분석만 선택하는 행위를 말합니다. 이를 방지하기 위해 연구 가설과 방법론을 사전에 명확히 정의하고, 데이터 전체를 투명하게 공개해야 합니다.


위 내용은 통계 면접 준비를 위한 핵심 개념과 모범 답변을 간결히 정리한 것입니다. 이를 기반으로 중요한 개념을 숙지하고 면접에서 활용하시면 도움이 될 것입니다. 추가적으로 필요한 내용이 있다면 언제든 요청해주세요!

반응형

댓글