1 분 소요

키워드🔑
모집단평균, Z-검정, T-검정, 분산분석, 모집단분석, 카이제곱검정, F-검정, 적합도 검정,
정규성검정, 샤피로-월크 검정, 콜모고로프-스미르노프 검정(K-S검정), Q-Q Plot

01. 분석 모형 평가 및 개선

1. 분석 모형 평가

4)모수 유의성 검정

image

가설검성 유형


(1) 모집단과 모수 관계

  • 모집단(Population): 분석/관심 대상 전체 그룹
  • 모수(Parameter): 모집단을 설명하는 어떤 값, 모집단의 특성을 나타내는 값
  • 표본(Sample): 모집단 일부, 모집단 분석을 위해 추출한 한 집단의 관측치
  • 통계량(Statistic): 모집단을 설명하는 어떤 값을 표본으로부터 구한 값, 표본의 특성을 나타내는 값


(2) 모집단 평균에 대한 유의성 검정
📌 Z-검정 / T-검정 / 분산분석

Z-Test T-Test ANOVA
검정통계량 분포를 귀무가설 하에서
정규분포로 근사할 수 있는 통계검정
검정통계량이 귀무가설 하에서
T-분포를 따르는 통계검정
2개 이상 집단간 비교/F-분포 이용
-정규분포 가정
-모분산을 이미 알고 있는 경우
-추출된 표본이 같은 모집단에 속하는가
-두 집단간 평균 비교
-모분산을 모르는 경우/표본분산으로 대체
-표본이 정규성/등분산성/독립성 등을
만족할 경우에 적용함
-집단 내 분산/집단 간 분산
-분산 비교로 얻은 F-분포를 이용함
-일원 분산분석: 독립변수 1개
-이원 분산분석: 독립변수 2개
  • T-분포
    • 표준정규분포와 유사
    • 0 중심 좌우대칭 but 꼬리가 더 길고 평평함
    • 정규분포의 평균을 측정할 때 많이 사용하는 분포
    • 적은 표본으로 모집단 평균을 추정하기 위해, 정규분포 대신 사용하는 확률 분포
    • 자유도(= 표본개수-1) 증가할수록 가까워짐
    • 중심극한정리: 표본개수가 충분히 크다면/자유도가 30이 넘으면, 정규분포에 가까워진다


(3) 모집단 분산에 대한 유의성 검정
📌 카이제곱검정 / F-검정

  • 카이제곱분포
    • χ = Z₁² + Z₂² + Z₃² + … + Zn²
    • 각각 독립인 표준정규분포를 취하는 확률변수 Z의 제곱의 합만 χ 를 따르는 확률 분포
    • 자유도 n 이 작을수록, 왼쪽으로 치우침
    • 자유도 n이 클수록, 정규분포에 가까워짐

5) 적합도 검정


(1) 적합도 검정
📌 표본집단 분포가 특정이론을 따르고 있는지 검정

  • 기법 유형: 가정된 확률이 정해진 경우 & 아닌 경우
    • 가정된 확률 검정: 카이제곱검정
    • 가정된 확률 없음 → 정규성 검정: 사피로-월크 검정/콜모고로프-스미르노프 검정/Q-Q Plot


(2) 적합도 검정 기법

  • chisq.test() → p-value > 0.05 → 관측된 데이터가 가정된 확률을 따른다
  • 정규성 검정: 정규성 가정을 만족하지 못한다면, 모형 타당성이 떨어지고 신뢰성을 의심받을 수 있음 → 검정 필요
사피로-월크 검정 콜모고로프-스미르노프 검정 Q-Q Plot
Shapiro-Wilk Test K-S Test Quantile-Quantile Plot
-shapiro.test()
-함수에서 수치형 벡터 1개만 사용가능
-데이터가 적은 경우 사용 (5,000개 이하)
-H0: 표본은 정규분포를 따른다.
-ks.test()
-함수에서 x=검정할 데이터, y=이론적분포
-y를 입력하지 않으면 표준정규분포로 계산
-데이터가 많은 경우 사용 (2,000개 이상)
-그래프 이용
-정규성가정을 시각적으로 검정
-대각선 참조선을 따라서 값들이 분포하면,
정규성 가정을 만족한다고 판단함
-기준 모호/주관적

image

Q-Q Plot


댓글남기기