[빅데이터분석기사 필기] Ⅱ.빅데이터 탐색 - 03. 통계기법 이해(2)
키워드🔑
표본추출, 확률분포, 포아송분포, 베르누이분포, 이항분포,
정규분포, 표준정규분포, T-분포, 카이제곱분포, F-분포, 표본분포
03. 통계기법 이해
1. 기술 통계
2) 표본 추출
(1) 표본 추출 기법
📌 단순 무작위 / 계통 / 층화 / 군집 추출
- 단순 무작위 추출: 정해진 규칙없이 표본 추출
- 계통 추출: 일정한 간격으로 표본 추출
- 층화 추출: 여러 계층 나눔 → 계층별로 무작위 추출
- 계층: 내부 동질 / 외부 이질
- ex) 지역별 여론조사
- 군집 추출: 여러 군집 나눔 → 일부 군집의 전체 or 일부 추출
- 군집: 계층과 다르게 성질 고려 X
(2) 자료 측정(Measurement)
📌 대상의 특정한 속성을 숫자 or 기호로 표시
- 척도(Scale): 명목척도 / 순서척도 / 구간척도 / 비율척도
- 명목척도(Nominal Scale)
- 분류목적, 등호연산 가능 (=, ≠)
- ex) 이메일 주소, 계정, 성별
- 순서척도(Ordinal Scale)
- 대소관계, 비교연산 가능 (>, <)
- ex) 직급, 영화평점, 선호도
- 구간척도(Interval Scale)
- 서열과 의미있는 차이 가짐
- ex) 온도, 지능지수
- 비율척도(Ratio Scale)
- 구간 척도 + 척도간 비율, 승제연산 가능 (÷, ×)
- ex) 질량, 개수, 길이
3) 확률분포
(1) 확률분포(Probability Distribution)
- 확률분포: 확률변수가 특정한 값을 가질 확률을 나타내는 분포
- 확률변수: 확률적인 과정에 따라 값이 결정되는 변수
(2) 확률분포의 종류
📌 이산확률분포 / 연속확률분포
- 이산확률분포(Discrete Probability Distribution): 포아송/베르누이/이항 분포
- 포아송분포
- 발생 횟수
- 주어진 시간, 영역에서 어떤 사건의 발생횟수
- 베르누이 분포
- 1번시행
- 시행 결과 → 성공 or 실패
- 이항 분포
- n번 시행 / 각 시행 확률 = p
- k번 성공할 확률분포
- 포아송분포
- 연속확률분포(Continuous Probability Distribution): 정규분포/표준정규분포/T-분포/카이제곱분포/F-분포
- 연속확률변수는 실수와 같이 연속적인 값을 취함
- 카이제곱분포: 표본통계량이 표본분산일 때 표본 분포
정규분포 | 표준정규분포 (Z-분포) | T-분포 | 카이제곱분포 | F-분포 |
---|---|---|---|---|
N(μ, σ²) 종모양 분포 |
Z(0, 1) X를 Z로 정규화 |
정규분포라는 건 알고 모표준편차는 모를때 |
서로 독립적인 K개의 표준정규 확률변수 각각 제곱해서 합함 |
독립적인 카이제곱분포에서 두 확률변수의 비 |
4) 표본 분포
(1) 표본 분포(Sampling Distribution)
📌 표본이 가지는 추정량의 확률분포
- 표본 분포
- 모집단에서 추출한 크기가 n개로 일정한 표본이 가지는 추정량의 확률분포
- 표본의 특성을 보여주는 통계량(Statistics)에 의해 모집단의 특성을 보여주는 모수(Parameter)를 추론한다
(2) 표본 분포 용어
📌 모집단 / 모수 / 통계량 / 추정량 / 표준편차 / 표준오차
- 모집단(Population): 분석 대상 집단 전체
- 모수(Parameter): 모집단의 특성을 나타내느 대푯값
- 통계량(Statistics): 표본에서 얻은 평균, 표준오차와 같은 값
- 통계량을 통해 모수를 추정함
- 표본에 따라 달라지므로 통계량은 확률변수임
- 추정량(Estimator): 모수 추정을 위해 구한 통계량
- 표준편차(Standard Deviation): 자료의 변동 정도
- 표준오차(Standard Error): 통계량의 변동 정도
- 평균을 낸 값들의 표준편차
(3) 표본 조사 용어
📌 표본오차 / 비표본오차 / 표본편의
- 표본(Sample): 모집단의 특성을 추정하기 위해, 조사하는 모집단의 일부분
- 표본 조사: 모집단 일부분을 조사하는 행위
- 표본오차(Sampling Error): 모집단을 대표할 수 있는 것들이 추출되지 못해서 발생하는 오차
- 비표본오차(Sampling Bias): 표본추출 방법에서 생기는 오차(모수를 작게 or 크게 추정)
- 확률화(Randomization): 모집단으로부터 편의되지 않은 표본을 추출하는 절차
- 확률화 절차로 추출한 확률표본으로, 표본편의를 최소화할 수 있음
(4) 표본 분포와 관련된 법칙
📌 큰 수의 법칙 / 중심 극한 정리
- 큰 수의 법칙(Law Large Number)
- 표본 개수 n이 커질수록 → 표본평균 분산이 0에 가까워짐 → 즉, 데이터 퍼짐이 적어짐 → 표본평균과 모 평균이 비슷해짐
- 중심 극한 정리(Central Limit Theorem)
- 표본 개수 n이 커질수록 → 모집단 분포와 상관없이, 표본분포가 정규분포에 근사
(4) 표본 분포의 유형
📌 Z-분포 / T-분포 / 카이제곱 분포 / F-분포
댓글남기기