[빅데이터분석기사 필기] Ⅳ.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (3)

1 분 소요

키워드🔑
모집단평균, Z-검정, T-검정, 분산분석, 모집단분석, 카이제곱검정, F-검정, 적합도 검정,
정규성검정, 샤피로-월크 검정, 콜모고로프-스미르노프 검정(K-S검정), Q-Q Plot

01. 분석 모형 평가 및 개선

가설검성 유형

(1) 모집단과 모수 관계

(2) 모집단 평균에 대한 유의성 검정
📌 Z-검정 / T-검정 / 분산분석

Z-Test	T-Test	ANOVA
검정통계량 분포를 귀무가설 하에서 정규분포로 근사할 수 있는 통계검정	검정통계량이 귀무가설 하에서 T-분포를 따르는 통계검정	2개 이상 집단간 비교/F-분포 이용
-정규분포 가정 -모분산을 이미 알고 있는 경우 -추출된 표본이 같은 모집단에 속하는가	-두 집단간 평균 비교 -모분산을 모르는 경우/표본분산으로 대체 -표본이 정규성/등분산성/독립성 등을 만족할 경우에 적용함	-집단 내 분산/집단 간 분산 -분산 비교로 얻은 F-분포를 이용함 -일원 분산분석: 독립변수 1개 -이원 분산분석: 독립변수 2개

(3) 모집단 분산에 대한 유의성 검정
📌 카이제곱검정 / F-검정

카이제곱분포
- χ = Z₁² + Z₂² + Z₃² + … + Zn²
- 각각 독립인 표준정규분포를 취하는 확률변수 Z의 제곱의 합만 χ 를 따르는 확률 분포
- 자유도 n 이 작을수록, 왼쪽으로 치우침
- 자유도 n이 클수록, 정규분포에 가까워짐

(1) 적합도 검정
📌 표본집단 분포가 특정이론을 따르고 있는지 검정

기법 유형: 가정된 확률이 정해진 경우 & 아닌 경우
- 가정된 확률 검정: 카이제곱검정
- 가정된 확률 없음 → 정규성 검정: 사피로-월크 검정/콜모고로프-스미르노프 검정/Q-Q Plot

(2) 적합도 검정 기법

사피로-월크 검정	콜모고로프-스미르노프 검정	Q-Q Plot
Shapiro-Wilk Test	K-S Test	Quantile-Quantile Plot
-shapiro.test() -함수에서 수치형 벡터 1개만 사용가능 -데이터가 적은 경우 사용 (5,000개 이하) -H0: 표본은 정규분포를 따른다.	-ks.test() -함수에서 x=검정할 데이터, y=이론적분포 -y를 입력하지 않으면 표준정규분포로 계산 -데이터가 많은 경우 사용 (2,000개 이상)	-그래프 이용 -정규성가정을 시각적으로 검정 -대각선 참조선을 따라서 값들이 분포하면, 정규성 가정을 만족한다고 판단함 -기준 모호/주관적

Q-Q Plot