3 분 소요

키워드🔑
회귀분석, 선형성, 독립성, 등분산성, 비상관성, 정상성,
추정, 최소제곱법, 회귀계수, 결정계수, F-통계량, 로지스틱회귀분석, 다중공선성

02. 분석기법 적용

1. 분석기법

1) 회귀 분석


(1) 회귀 분석(Regression Analysis)
📌 1개 이상의 독립변수가 종속변수에 미치는 영향을 추정

  • 회귀 분석
    • 변수들 사이의 인과관계를 밝히고
    • 모형을 적합하여
    • 관심있는 변수를 예측/추론
  • 변수: 영향을 주는 변수(x) / 영향을 받는 변수(y)
    • 영향을 주는 변수 = 독립변수 = 설명변수 = 예측변수
    • 영향을 받는 변수 = 종속변수 = 반응변수 = 결과변수
  • 가정: 선형성 / 독립성 / 등분산성 / 비상관성 / 정장성
    • 단순모형: 선형성 검증 / 다중모형: 5개 가정 모드 검증
    • 선형성: 독립변수와 종속변수의 선형관계
    • 독립성: 잔차와 독립변수 상관 X
    • 등분산성: 오차들의 분산 일정
    • 비상관성: 오차들 간 상관 X
    • 정상성: 오차항(잔차항)이 정규분포
  • 모형 검증 체크리스트: 통계적 유의미 / 회귀계수 / 설명력 / 데이터 적합 / 가정 만족
    • 통계적 유의미: F-통계량, p-value 확인
    • 회귀계수: 계수의 T-통계량, p-value, 신뢰구간 확인
    • 설명력: 결정계수 확인
    • 데이터 적합: 잔차 그래프 → 회귀 진단
    • 가정 만족: 5개 가정 모두 만족?

💡
변수(Variable)란, 수식에 따라서 변하는 값을 말한다

💡
계수(Variable)란, ‘인자’의 뜻으로 쓰이며 식 앞에 곺해지는 상수를 의미한다

  • 편차 vs. 오차 vs. 잔차
    • 편차(deviation): 평균과의 차이 = 관측값이 평균값에서 떨어져 있는 정도
    • 오차(Error): 모집단에서 실젯값과 회귀선의 차이 즉, 정확치와 관측값의 차이
      • 예측하기 위한 추정치와 실젯값의 차이 = 예측값이 정확하지 못한 정도
    • 잔차(Residual): 표본에서 나온 관측값과 회귀선의 차이
      • 평균이 아닌, 회귀식 등으로 추정된 추정치와의 차이
      • 추정된 값을 설명할 수 없어서 아직도 남아있는 편차 = 편차 일부분


(2) 회귀 분석 유형
📌 단순 선형/다중선형

  • 단순선형 회귀 분석(Simple Linear Regression Analysis): 독립변수 1개 , 종속변수 1개, 오차항 있는 선형 관계
    • 회귀식: yi = β₀ + β₁xi + ei
      • 오차항 ei는 독립적, N(0, σ²)의 분포
    • 회귀계수 추정: 최소제곱법 사용하여 추정
      • 최소제곱법(Least Square Method): 오차 제곱의 합이 가장 최소가 되는 회귀계수를 찾는다
    • 회귀분석 검정: 결정계수를 계산하여 결과가 적합한지 검증
      • 회귀계수 검정: β₀ = 0 이면, 추정식은 의미없음
      • 회귀직선 적합도, 정확도 평가: 결정계수(R²) (0 ≤ R² ≤ 1)
    • 선형회귀의 문제점: 0 이하의 값 or 1 이상의 값을 예측값으로 줄 수 있음 → 확률값으로 직접 해석할 수 없음
  • 다중선형 회귀 분석(Multi Linear Regression Analysis): 독립변수 여러 개, 종속변수 1개
    • 모형의 통계적 유의성: F-통계량으로 확인
      • F-통계량 ↑ p-value ↓ → p-value < 0.05 이면 귀무가설 기각 → 모형이 통계적으로 유의하다
      • F = MSR/MSE = (SSR/k) / {SSE/(n-k-1)}
    • 회귀분석 검정
      • 회귀계수: t-통계량
      • 회귀선: 결정계수
      • 모형적합성: 잔차와 종속변수의 산점도
      • 다중공선성: VIF, 상태지수
    • 다중공선성(Multicolinearity)
      📌 다중회귀분석에서 독립변수들 간 선형관계가 존재한다면 → 정확한 회귀계수 추정 어려움
      • 분산팽창요인 (VIF): 4 < vIF 다중공선성 존재 / 10 < VIF 심각한 문제
      • 상태지수: 10 < 상태지수 이면 문제있음 / 30 < 상태지수 이면 심각
      • 다중공선성 문제 발생 → 변수 제거 / 주성분 회귀 / 능형 회구(Ridge Regression) 적용

💡
F-통계량은 분산이 동일하다고 가정되는 두 모집단으로부터,
독립적인 두 표본을 추출했을 때, 두 표본분산의 비율이다

💡
주성분회귀(PCR)란, 독립변수들의 주성분들을 추출하여 회귀모델을 만드는 기법을 말한다

💡
능형회귀(Ridge Regression)는 최소제곱합에 패널티 항을 추가하여 추정하여, 분산을 줄여주는 효과가 있다

  • 주성분 분석: 서로 상관성이 높은 변수들을 선형결합으로 요약, 축소하는 기법
    • 변수들의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 원래 변수의 선형결합으로 추출하는 통계기법
    • 분선을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하는 건 어렵다

2) 로지스틱 회귀 분석


(1) 로지스틱 회귀 분석(Logistic Regression Analysis)
📌 반응변수(종속변수)가 범주형, 분류 목적으로 사용

  • 로지스틱 회귀 분석
    • 새로운 설명변수(독립변수) 값이 주어질 때
    • 반응변수(종속변수)의 각 범주에
    • 속할 확률이 어느정도인지 추정하여
    • 추정 확률을 기준치에 따라 분류
  • 로지스틱 회귀모형의 사용
    • 클래스가 알려진 데이터에서
    • 각 클래스내의 관측치들에 대한
    • 유사성을 찾는 데 사용할 수 있다
  • 승산(오즈; Odds) = 실패에 비해 성공할 확률의 비 = p / (1-p)
    • 회귀식: log( π(x) / (1-π(x)) ) = α + β₁x
      • π(x) = P(Y=1 x)
    • 회귀계수 β₁ 부호에 따라 로지스틱 함수 그래프 모양이 달라짐 ⇒ β₁ > 0 - S자 ⇒ β₁ < 0 - 역 S자
    • R 함수
      • glm(): 모형 적합 함수
      • cdplot(): 연속형변수의 변화에 따른 범주형변수의 조건부분포 조회 (탐색적 분석)
      • step(): 변수 선택 함수

댓글남기기