[빅데이터분석기사 필기] Ⅲ.빅데이터 모델링 - 02. 분석기법 적용 (12) 비모수 통계
키워드🔑
비모수통계, 부호검정, 윌콕슨 부호 순위 검정, 윌콕슨 순위 합 검정, 크루스칼-왈리스 검정, 런 검정
02. 분석기법 적용
2. 고급 분석기법
8) 비모수 통계
(1) 비모수 통계
- 비모수 통계(Non-parametric statistics)
- 평균, 분산과 같은 모집단의 분포에 대한(분포 무관)
모수성을 가정하지 않고(=모수에 대한 가정을 전제하지 않고) 분석하는 통계적 방법
- 평균, 분산과 같은 모집단의 분포에 대한(분포 무관)
- 모수
- 모수: 모집단의 분포 특성을 규정짓는 척도 & 모집단의 특성치
- 모수에 대한 통계적 추론: 모집단에서 추출한 표본 특성을 분석 → 모수에 대한 추론
- 비모수 통계의 특징
- 통계량: 빈도 / 부호 / 순위
- 데이터가 모수적 분석방법이 가정한 특성을 불만족하는 경우에 사용
- 비모수 통계의 장점
- 모수성 가정 불만족으로 인한 오류 가능성 작음
- 모수적 방법보다 통계량 계산 & 직관적 이해 쉬움
- 모집단 분포와 무관하게 사용 가능
- 샘플 개수 작아도 사용 가능(10개 미만)
- 이상값 영향 적음
- 비모수 통계 검정방법 종류
- 단일 표본: 부호 검정, 윌콕슨 부호 순위 검정
- 두 표본: 윌콕슨 부호 합 검정, 부호 검정, 윌콕슨 부호 순위 검정
- 분산분석: 크루스칼-윌리스 검정
- 무작위성(임의성): 런 검정
- 상관분석(연관성): 스피어만 순위 상관계수
(2) 단일 표본 부호 검정
📌 부호 검정, 윌콕슨 부호 순위 검정
부호 검정 Sign Test |
윌콕슨 부호 순위 검정 Wilcoxon Signed Rank Test |
|
---|---|---|
설명 | -차이의 부호 O / 차이의 크기 X 중위수와 자료의 차이를 부호로 전환 (-), (+) |
-차의의 부호 O / 차이의 크기 O -단일 표본 & 대응 표본에서 중위수에 대한 검정 |
가정 | -기본 가정: 연속성 & 독립적인 분포 -분포의 대칭성 가정: 없어도 된다 |
-기본 가정: 연속성 & 독립적인 분포 -분포의 대칭성 가정: 반드시 필요 O |
가설 | -H0: θ = θ₀ (ex. 중위수는 20이다.) -H1: θ ≠, >, < θ₀ |
-H0: θ = θ₀ (ex. 중위수는 20이다.) -H1: θ ≠, >, < θ₀ |
검정 절차 & 특징 |
-가정한 중위수 θ₀와 같은 데이터를 제외하고 남은 표본 개수를 n으로 둔다 -차이가 양수이면 Ψi = 1 -차이가 음수이면 Ψi = 0 - 검정통계량 B = ∑Ψi |
-위치 모수 θ₀와 같은 데이터는 표본에서 제외 - Yi = Xi - θ₀ = 표본 데이터와 중위수의 차이값 - Ri+ = │Yi│들의 순위 (가장 높은 값 = n) │Yi│가 동점(tie)인 경우 평균순위 사용 - 차이가 양수이면 Ψi = 1 - 차이가 음수이면 Ψi = 0 - 검정통계량 W+ = ∑ΨiRi+ |
(3) 두 표본 검정
📌 윌콕슨 순위 합 검정 / 대응 표본 검정
윌콕슨 순위 합 검정 Wilcoxon Rank Sum Test |
대응 표본 검정 Paired Sample Test |
|
---|---|---|
설명 | -윌콕슨 순위합 = 만-휘트니 U검정 -두 표본의 혼합표본(=표본1+표본2) 순위 합을 이용 |
-모집단 1개에 2가지 처리 -각 쌍의 차이값을 통해, 두 중위수의 차이 검정 -각 쌍의 차이값 = Di = Yi - Xi |
가정 | -∆ = 두 모집단의 중위수의 차이값 -H0: ∆ = 0 (두 모집단의 중위수가 같다.) -H1: ∆ ≠, >, < 0 |
-δ = Di들의 중위수 -H0: δ = 0 (두 쌍의 중위수가 같다.) -H1: δ ≠, >, < 0 |
검정 절차 & 특징 |
-두 표본의 표본 개수 m≥n, N=m+n -개수 많은 표본 Xi / 개수 더 적은 표본 Yj -혼합표본에서 Yj의 순위 Rj 계산 - 동점 있으면 → 평균 순위 사용 -검정통계량 W = ∑Rj - {n(n+1)}/2 |
부호 검정 -검정통계량 B = ∑Ψi 윌콕슨 부호 순위 검정 - 검정통계량 W+ = ∑ΨiRi+ |
(4) 크루스칼-왈리스 검정
📌 분산분석
- 크루스칼-왈리스 검정(Kruskal-Wallis Test)
- 3개 이상의 집단의 분포 비교
- 3개 이상의 그룹별 중위수 비교
- 각 그룹의 표본 개수는 다를 수 있음
- 모수적 방법의 One-way ANOVA와 같은 목적
- 가설 설정
- H0: 각 그룹간 중위수는 같다
- H1: 적어도 1개 그룹의 중위수는 다르다
- 순위 부여: 혼합 표본(N) 크기순 나열 → 가장 높은 값은 N, 가장 낮은 값은 1로 순위를 부여함
- 값 계산: 각 그룹 순위 합 / 평균 순위 / 총 평균 순위를 계산함
(5) 런 검정
📌 연속적인 값들의 임의성(무작위성)
- 런검정(Run Test) (Wald-Wolfowitz Runs Test)
- 변수값 2개를 가지는 연속적인 측정값들이 어떤 패턴/경향 없이 임의적(무작위적)으로 나타나는 것이 맞는가?
- 런: 동일한 측정값들의 시작~끝까지의 덩어리
- 런 검정의 가정
- 변수값을 2개 가져야 함
- 이분화된 자료가 아니면 → 기준값을 이용하여 이분화 해야 함
- 기준값은 평균값, 중위수, 최빈값 또는 다른 지정값으로 사용 가능
- 가설 설정
- H0: 연속적인 측정값들이 임의적이다
- H1: 연속적인 측정값들이 임의적이지 않다.
댓글남기기