[빅데이터분석기사 필기] Ⅳ.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (3)
키워드🔑
모집단평균, Z-검정, T-검정, 분산분석, 모집단분석, 카이제곱검정, F-검정, 적합도 검정,
정규성검정, 샤피로-월크 검정, 콜모고로프-스미르노프 검정(K-S검정), Q-Q Plot
01. 분석 모형 평가 및 개선
1. 분석 모형 평가
4)모수 유의성 검정
가설검성 유형
(1) 모집단과 모수 관계
- 모집단(Population): 분석/관심 대상 전체 그룹
- 모수(Parameter): 모집단을 설명하는 어떤 값, 모집단의 특성을 나타내는 값
- 표본(Sample): 모집단 일부, 모집단 분석을 위해 추출한 한 집단의 관측치
- 통계량(Statistic): 모집단을 설명하는 어떤 값을 표본으로부터 구한 값, 표본의 특성을 나타내는 값
(2) 모집단 평균에 대한 유의성 검정
📌 Z-검정 / T-검정 / 분산분석
Z-Test | T-Test | ANOVA |
---|---|---|
검정통계량 분포를 귀무가설 하에서 정규분포로 근사할 수 있는 통계검정 |
검정통계량이 귀무가설 하에서 T-분포를 따르는 통계검정 |
2개 이상 집단간 비교/F-분포 이용 |
-정규분포 가정 -모분산을 이미 알고 있는 경우 -추출된 표본이 같은 모집단에 속하는가 |
-두 집단간 평균 비교 -모분산을 모르는 경우/표본분산으로 대체 -표본이 정규성/등분산성/독립성 등을 만족할 경우에 적용함 |
-집단 내 분산/집단 간 분산 -분산 비교로 얻은 F-분포를 이용함 -일원 분산분석: 독립변수 1개 -이원 분산분석: 독립변수 2개 |
- T-분포
- 표준정규분포와 유사
- 0 중심 좌우대칭 but 꼬리가 더 길고 평평함
- 정규분포의 평균을 측정할 때 많이 사용하는 분포
- 적은 표본으로 모집단 평균을 추정하기 위해, 정규분포 대신 사용하는 확률 분포
- 자유도(= 표본개수-1) 증가할수록 가까워짐
- 중심극한정리: 표본개수가 충분히 크다면/자유도가 30이 넘으면, 정규분포에 가까워진다
(3) 모집단 분산에 대한 유의성 검정
📌 카이제곱검정 / F-검정
- 카이제곱분포
- χ = Z₁² + Z₂² + Z₃² + … + Zn²
- 각각 독립인 표준정규분포를 취하는 확률변수 Z의 제곱의 합만 χ 를 따르는 확률 분포
- 자유도 n 이 작을수록, 왼쪽으로 치우침
- 자유도 n이 클수록, 정규분포에 가까워짐
5) 적합도 검정
(1) 적합도 검정
📌 표본집단 분포가 특정이론을 따르고 있는지 검정
- 기법 유형: 가정된 확률이 정해진 경우 & 아닌 경우
- 가정된 확률 검정: 카이제곱검정
- 가정된 확률 없음 → 정규성 검정: 사피로-월크 검정/콜모고로프-스미르노프 검정/Q-Q Plot
(2) 적합도 검정 기법
- chisq.test() → p-value > 0.05 → 관측된 데이터가 가정된 확률을 따른다
- 정규성 검정: 정규성 가정을 만족하지 못한다면, 모형 타당성이 떨어지고 신뢰성을 의심받을 수 있음 → 검정 필요
사피로-월크 검정 | 콜모고로프-스미르노프 검정 | Q-Q Plot |
---|---|---|
Shapiro-Wilk Test | K-S Test | Quantile-Quantile Plot |
-shapiro.test() -함수에서 수치형 벡터 1개만 사용가능 -데이터가 적은 경우 사용 (5,000개 이하) -H0: 표본은 정규분포를 따른다. |
-ks.test() -함수에서 x=검정할 데이터, y=이론적분포 -y를 입력하지 않으면 표준정규분포로 계산 -데이터가 많은 경우 사용 (2,000개 이상) |
-그래프 이용 -정규성가정을 시각적으로 검정 -대각선 참조선을 따라서 값들이 분포하면, 정규성 가정을 만족한다고 판단함 -기준 모호/주관적 |
Q-Q Plot
댓글남기기