[빅데이터분석기사 필기] Ⅲ.빅데이터 모델링 - 02. 분석기법 적용 (1) 회귀분석
키워드🔑
회귀분석, 선형성, 독립성, 등분산성, 비상관성, 정상성,
추정, 최소제곱법, 회귀계수, 결정계수, F-통계량, 로지스틱회귀분석, 다중공선성
02. 분석기법 적용
1. 분석기법
1) 회귀 분석
(1) 회귀 분석(Regression Analysis)
📌 1개 이상의 독립변수가 종속변수에 미치는 영향을 추정
- 회귀 분석
- 변수들 사이의 인과관계를 밝히고
- 모형을 적합하여
- 관심있는 변수를 예측/추론
- 변수: 영향을 주는 변수(x) / 영향을 받는 변수(y)
- 영향을 주는 변수 = 독립변수 = 설명변수 = 예측변수
- 영향을 받는 변수 = 종속변수 = 반응변수 = 결과변수
- 가정: 선형성 / 독립성 / 등분산성 / 비상관성 / 정장성
- 단순모형: 선형성 검증 / 다중모형: 5개 가정 모드 검증
- 선형성: 독립변수와 종속변수의 선형관계
- 독립성: 잔차와 독립변수 상관 X
- 등분산성: 오차들의 분산 일정
- 비상관성: 오차들 간 상관 X
- 정상성: 오차항(잔차항)이 정규분포
- 모형 검증 체크리스트: 통계적 유의미 / 회귀계수 / 설명력 / 데이터 적합 / 가정 만족
- 통계적 유의미: F-통계량, p-value 확인
- 회귀계수: 계수의 T-통계량, p-value, 신뢰구간 확인
- 설명력: 결정계수 확인
- 데이터 적합: 잔차 그래프 → 회귀 진단
- 가정 만족: 5개 가정 모두 만족?
💡
변수(Variable)란, 수식에 따라서 변하는 값을 말한다
💡
계수(Variable)란, ‘인자’의 뜻으로 쓰이며 식 앞에 곺해지는 상수를 의미한다
- 편차 vs. 오차 vs. 잔차
- 편차(deviation): 평균과의 차이 = 관측값이 평균값에서 떨어져 있는 정도
- 오차(Error): 모집단에서 실젯값과 회귀선의 차이 즉, 정확치와 관측값의 차이
- 예측하기 위한 추정치와 실젯값의 차이 = 예측값이 정확하지 못한 정도
- 잔차(Residual): 표본에서 나온 관측값과 회귀선의 차이
- 평균이 아닌, 회귀식 등으로 추정된 추정치와의 차이
- 추정된 값을 설명할 수 없어서 아직도 남아있는 편차 = 편차 일부분
(2) 회귀 분석 유형
📌 단순 선형/다중선형
- 단순선형 회귀 분석(Simple Linear Regression Analysis): 독립변수 1개 , 종속변수 1개, 오차항 있는 선형 관계
- 회귀식: yi = β₀ + β₁xi + ei
- 오차항 ei는 독립적, N(0, σ²)의 분포
- 회귀계수 추정: 최소제곱법 사용하여 추정
- 최소제곱법(Least Square Method): 오차 제곱의 합이 가장 최소가 되는 회귀계수를 찾는다
- 회귀분석 검정: 결정계수를 계산하여 결과가 적합한지 검증
- 회귀계수 검정: β₀ = 0 이면, 추정식은 의미없음
- 회귀직선 적합도, 정확도 평가: 결정계수(R²) (0 ≤ R² ≤ 1)
- 선형회귀의 문제점: 0 이하의 값 or 1 이상의 값을 예측값으로 줄 수 있음 → 확률값으로 직접 해석할 수 없음
- 회귀식: yi = β₀ + β₁xi + ei
- 다중선형 회귀 분석(Multi Linear Regression Analysis): 독립변수 여러 개, 종속변수 1개
- 모형의 통계적 유의성: F-통계량으로 확인
- F-통계량 ↑ p-value ↓ → p-value < 0.05 이면 귀무가설 기각 → 모형이 통계적으로 유의하다
- F = MSR/MSE = (SSR/k) / {SSE/(n-k-1)}
- 회귀분석 검정
- 회귀계수: t-통계량
- 회귀선: 결정계수
- 모형적합성: 잔차와 종속변수의 산점도
- 다중공선성: VIF, 상태지수
- 다중공선성(Multicolinearity)
📌 다중회귀분석에서 독립변수들 간 선형관계가 존재한다면 → 정확한 회귀계수 추정 어려움- 분산팽창요인 (VIF): 4 < vIF 다중공선성 존재 / 10 < VIF 심각한 문제
- 상태지수: 10 < 상태지수 이면 문제있음 / 30 < 상태지수 이면 심각
- 다중공선성 문제 발생 → 변수 제거 / 주성분 회귀 / 능형 회구(Ridge Regression) 적용
- 모형의 통계적 유의성: F-통계량으로 확인
💡
F-통계량은 분산이 동일하다고 가정되는 두 모집단으로부터,
독립적인 두 표본을 추출했을 때, 두 표본분산의 비율이다
💡
주성분회귀(PCR)란, 독립변수들의 주성분들을 추출하여 회귀모델을 만드는 기법을 말한다
💡
능형회귀(Ridge Regression)는 최소제곱합에 패널티 항을 추가하여 추정하여, 분산을 줄여주는 효과가 있다
- 주성분 분석: 서로 상관성이 높은 변수들을 선형결합으로 요약, 축소하는 기법
- 변수들의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형결합으로 추출하는 통계기법
- 분선을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하는 건 어렵다
2) 로지스틱 회귀 분석
(1) 로지스틱 회귀 분석(Logistic Regression Analysis)
📌 반응변수(종속변수)가 범주형, 분류 목적으로 사용
- 로지스틱 회귀 분석
- 새로운 설명변수(독립변수) 값이 주어질 때
- 반응변수(종속변수)의 각 범주에
- 속할 확률이 어느정도인지 추정하여
- 추정 확률을 기준치에 따라 분류
- 로지스틱 회귀모형의 사용
- 클래스가 알려진 데이터에서
- 각 클래스내의 관측치들에 대한
- 유사성을 찾는 데 사용할 수 있다
- 승산(오즈; Odds) = 실패에 비해 성공할 확률의 비 = p / (1-p)
- 회귀식: log( π(x) / (1-π(x)) ) = α + β₁x
-
π(x) = P(Y=1 x)
-
- 회귀계수 β₁ 부호에 따라 로지스틱 함수 그래프 모양이 달라짐 ⇒ β₁ > 0 - S자 ⇒ β₁ < 0 - 역 S자
- R 함수
- glm(): 모형 적합 함수
- cdplot(): 연속형변수의 변화에 따른 범주형변수의 조건부분포 조회 (탐색적 분석)
- step(): 변수 선택 함수
- 회귀식: log( π(x) / (1-π(x)) ) = α + β₁x
댓글남기기