[빅데이터분석기사 필기] Ⅱ.빅데이터 탐색 - 03. 통계기법 이해(1)

3 분 소요

키워드🔑
기술통계, 기초통계량, 평균, 중위수, 최빈값, 범위, 분산, 표준편차, 평균의 표준오차, 분포(첨도, 왜도),
상관분석, 회귀분석, 선형성, 등분산성, 독립성, 비상관성, 정규성, 분산분석, 주성분분석, 판별분석

03. 통계기법 이해

기술 통계(Descriptive Statistics)
📌 데이터 분석을 목적으로 수집된 데이터를 확률 통계적으로 정리·요약하는 기초적인 통계
기술통계 목적: 분석 초기 단계에 데이터 분포의 특징을 파악하고자 함
기술통계 방법
- 통계적 수치 계산: 평균 / 분산 / 표준편차
- 그래프 활용: 막대 그래프 / 파이 그래프
- 데이터에 대한 전반적인 이해를 도움

(1) 기초통계량
📌 평균/ 중위수/ 최빈값/ 범위/ 분산/ 표준편차/ 평균의 표준오차/ 분포(첨도, 왜도)

평균(Mea): (자료를 모두 더한 값) / (자료 개수)
- 같은 가중치 / 이상값에 민감
- 모평균: 조사하는 모집단의 평균
- 표본평균: 모집단의 일부분인 표본(Sample)의 평균
중위수(Median): 오름차순 정렬 → 중앙에 위치한 데이터 값
- 특이값 영향 X
최빈값(Mode): 빈도수가 가장 높은 데이터값
범위(Range): 최댓값(Max) - 최솟값(Min)
분산(Variance): 평균으로부터 흩어진 정도
- 모분산: {(각 데이터값과 평균과의 편차) 제곱의 합} / n
- 표본분산: {(각 데이터값과 평균과의 편차) 제곱의 합} / (n-1)
- 제곱의 합을 하는 이유: 양 편차와 음의 편차를 그대로 합하면 0이 되버린다

💡
표본분산은 n-1로 나누는 이유:
모집단에서 표본을 추출하는 단계에서 자유도가 1 빠졌다고 생각하면 쉽다

💡
자유도(Degree of Freedom)란, 통계적 추정을 할 때
표본자료 중 모집단에 대한 정보를 주는 독립적인 자료의 수

표준편차(SD; Standard Deviation): 분산의 양의 제곱근
- 분산과 마찬가지로 표본/모집단의 표준편차
평균의 표준오차 (표준오차) (SEM; Standard Error of Mean, SE; Standard Error): 표본평균의 표준편차
- 표본의 각 평균들이 전체평균으로부터 평균적으로 얼마나 떨어져 있는가
- 모집단에서 수많은 표본추출 → 표본들마다 평균 계산 → 각 평균들에 대한 전체 평균 계산
분포(Distribution)
- 분포의 형태 - 첨도(Kurtosis): 분포의 뾰족한 정도를 설명하는 통계량
  - 첨도 = 0: 표준정규분포
  - 첨도 > 0: 뾰족(첨용)
  - 첨도 < 0: 납작(평용)
- 분포의 대칭성 - 왜도(Skewness): 분포의 기울어진 정도 / 비대칭성을 나타내는 통계량
  - 왜도 = 0: 좌우대칭
  - 왜도 > 0: 오른쪽으로 긴 꼬리
  - 왜도 < 0: 왼쪽으로 긴 꼬리

(2) 상관분석(Correlation Analysis)
📌 2개 이상의 변수간의 연관성의 정도를 측정, 분석하는 방법

수치적 데이터	명목적 데이터	순서적 데이터
- 두 변수간의 선형적 연관성을 계량적으로 파악한다 - 피어슨 상관계수 (-1 ≤ r ≤ +1)	- 두 변수간의 연관성을 계량적으로 파악한다 - 카이제곱 검정	- 순서가 의미있는 두 변수간의 연관성, 상관관계를 검정한다 - 스피어만 순위상관계수

(3) 회귀분석(Regression Analysis)
📌 1개 이상의 독립변수들이 종속변수에 미치는 영향을 추정

종류	단순 회귀모형	다중 회귀모형
독립변수	1개, 수치형	2개이상 수치형, 범주형
종속변수	1개, 수치형	1개, 수치형

(4) 분산분석(ANOVA; Analtsis of Variance)
📌 2개 이상의 집단간 비교

분산분석 특징
- (집단 내 분산)과 (집단 간 분산)의 비교를 통해 2개 이상의 집단간 비교를 수행
- 분산을 계산하여 집단 간 통계적인 차이를 판정
- F-검정 통계량: (집단 내 분석) 대비 (집단 간 분산)이 몇 배 더 큰지 나타내는 값
종류: 일원 / 이원 / 다변량 분산분석 / 공분산 분석
- 독립변수에 의한 집단간 종속변수의 평균 차이를 비교
- 공분산 분석: 연속형 외생변수가 종속변수에 미치는 영향을 제거 → 순수한 집단간 평균 차이를 비교

종류	일원 분산분석 (ANOVA)	이원 분산분석 (Two-way ANOVA)	다변량 분산분석 (MANOVA)
독립변수	1개	2개	-
종속변수	1개	1개	2개 이상

(5) 주성분 분석(PCA; Principle Component Analysis)

(6) 판별 분석(Discrimination Analysis)
📌 집단을 구별하는 분석