3 분 소요

키워드🔑
회귀 모형 평가지표, SSE, SST, SSR, R²=결정계수, R²adj, Mallow’s Cp,
분류 모형 평가지표, 혼동 행렬, ROC 곡선, AUC, 이익도표, 홀드 아웃 교차 검증, 다중 교차 검증,
정확도, 오차비율,민감도, 특이도, 거짓긍정률, 정밀도, F1-score, 카파통계량

01. 분석 모형 평가 및 개선

1. 분석 모형 평가

< 분석 모형 평가 >

  • 모형의 유용성 판단, 비교, 평가 과정은 중요하다
  • 모형을 만든 것으로 끝이 아니다
    • 객관적인 평가지표를 통해 실무에서 사용 가능한지 평가
    • 기존 운영시스템과의 연계/통합을 통해 지속적인 개선
  • 분석 모형 평가란 다음 사항들에 대해 분석하는 것
    • 구축된 모형이 임의의 모형보다 더 우수한 성과를 보이는가
    • 고려된 모형들 중 어느 것이 가장 우수한가
  • 분석 모형 평가 기준
    • 일반화의 가능성: 데이터 확장 적용이 가능한가 → 모집단 내 다른 데이터에서도 결과가 안정적인지 평가
    • 효율성: 필요한 입력변수가 적을수록 효율적
    • 예측&분류 정확성

1) 평가지표

모형 종류 회귀 모형 = 예측 모형 분류 모형
평가 지표 -실제값(yi)/ 예측값(yi_hat)/ 평균값(y_bar)
-오차제곱합 SSE/전체제곱합 SST/회귀제곱합 SSR
-R² = SSR/SST, R²adj, Mallow’s Cp
-혼동 행렬, 정확도, 민감도, 정밀도, F1-score
-ROC Curve, AUC (Area Under ROC)
-이익도표 (Gain Chart)


(1) 회귀 모형 평가지표
📌 SSE / SST / SSR / R²=결정계수 / R²adj / Mallow’s Cp

  • 회귀 모형 평가지표: SSE(오차제곱합)/SST(전체제곱합)/SSR(회귀제곱합)/AE/MAE/RMSE/MAPE/MPE
    • SSE = 오차제곱합 = 예측값과 실젯값의 차이(오차) 제곱 합
    • SST = 전체제곱합 = 실쳇값과 평균값의 차이 제곱 합
    • SSR = 회귀제곱합 = 예측값과 평균값의 차이 제곱 합
    • AE = Average Error = 평균 오차
    • MAE = Mean Absolute Error = 평균 절대 오차
    • RMSE = Root Mean Squared Error = 평균 제곱근 오차
    • MAPE = Mean Absolute Percentage Error = 평균 절대 백분율 오차
    • MPE = Mean Percentage Error = 평균 백분율 오차
  • 회귀 모형 성능 검증지표: R²(결정계수)/R²adj(수정된 결정계수)/Mallow’s Cp
    • 결정계수
      • 회귀모형이 실제값을 얼마나 잘 나타내는지에 대한 비율(0~1)
      • 독립변수 개수가 많은 모형의 경우 부적합
      • 단점: 모형의 변수 개수가 증가할 때, 그 변수가 유의하지 않더라도 결정계수는 증가한다
    • 수정된 결정계수
      • 결정계수의 단점을 보완함 → 수정된 결정계수는 결정계수보다 항상 작음
      • 유의하지 않은 독립변수를 추가할수록, 패널티 부과 → 감소
      • 모형이 유용한 독립변수를 추가할수록 → 증가
      • 따라서, 독립변수 개수가 많은 모형에 적합
    • Mallow’s Cp = 적절하지 않은 독립변수 추가에 대한 패널티를 부과한 통계량
      • 값이 작을수록 실젯값을 잘 설명하는 모형


(2) 분류 모형 평가지표
📌 혼동 행렬 / ROC 곡선 / AUC / 이익도표

  • 혼동 행렬(Confusion Matrix)(정오 행렬)
    • 모델이 분류한 예측범주와 실제 분류범주를 교차표로 정리한 행렬(N⨉N)
      • TP, FN, FP, TN
    • 예측값과 실제값이 일차빈도를 통해 모델 정확도 평가
    • 모델 성능을 평가할 수 있는 평가지표 도출
      • 정확도: 실제 분류를 정확하게 예측한 비율
      • 오차비율: 1 - 정확도
      • 민감도 재현율: 실제 P를 P로 예측한 비율
      • 특이도: 실제 N을 N으로 예측한 비율
      • 거짓긍정률: 1 - 특이도
      • 정밀도: P로 예측한 것들 중, 실제 P인 비율
      • F1-score(F-measure): 정밀도와 민감도(재현율)을 합한 평가지표(조화평균)
      • 카파통계량(Kappa Statistics): 두 관찰자가 측정한 범주값의 일치도를 측정
  • ROC 곡선(ROC Curve)
    • 가로축 = 거짓긍정률
    • 세로축 = 민감도
    • FP rate - TP rate 반비례 관계(Trade-ofF)
    • ROC 곡선이 왼쪽 꼭대기에 가까워질수록, 분류 성능 우수함
    • AUC(Area Under ROC) = ROC 곡선 아래 면적
    • 0.5 ~ 1.0 사이의 값
    • 1에 가까울수록, 모델 정확도 높음
  • 이익 도표(Gain Chart)
    • 그래프를 통해 분류모형의 성능을 평가함(이익 도표 = 이익 곡선 = 리프트 곡선)
    • 이익(Gain)
      • 목표범주에 속한 개체들이 임의로 나눈 등급별로 얼마나 분포하고 있는지 나타내는 값

2) 분석 모형 진단


(1) 데이터 분석 모형의 오류
📌 일반화 오류 / 학습 오류

  • 일반화 오류(Generalization Error)
    • 주어진 데이터의 특성을 지나치게 반영 → 주변특성&단순잡음 묘사 → 과대 적합
  • 학습 오류(Training Error): 주어진 데이터의 특성을 덜 반영하도록 모형 생성 → 과소 적합


(2) 데이터 분석 모형 검증
📌 홀드 아웃 교차 검증 / 다중 교차 검증

  • 홀드 아웃 교차 검증
    • 데이터 집합 구분: 서로 겹치지 않는 학습집합, 시험집합으로 무작위 구분
    • 학습집합으로 분석모형을 구축
    • 시험집합으로 분석모형의 성능 평가
  • 다중교차 검증
    • 데이터 집합 나눔: 같은 크기의 부분집합 k개로 무작위 나눔
    • k개 부분집합 = 1개는 시험집합 + (k-1)개는 학습집합
    • 종류: Random Sub-Sampling, K-Fold Cross Validation, Leave-One-Out Cross Validation, Bootstrap


(3) 분석 모형 시각화
📌 정보 구조화 → 정보 시각화 → 정보 시각표현

  • 시각화: 그래프/그림과 같은 시각적 도구를 통해 의사결정자에게 제공하여, 분석결과를 쉽게 이해할 수 있게 한다
  • 정보 구조화: 데이터 수집 및 탐색/데이터 분류/데이터 배열/데이터 재배열
  • 정보 시각화: 시각/분포/관계/비교/공간 시각화
  • 정보 시각표현: 그래픽 7요소/그래픽디자인 기본원리/인터랙션(Interaction)/시각정보디자인 7원칙


(4) 분석 모형 진단
📌 기본 가정 진단/잔차의 산점도

  • 선정한 분석모형의 기본가정에 대한 진단이 필요하다
  • 회귀모형은 잔차의 산점도를 이용하여 모형 진단: 선형성/독립성/등분산성/정상성(정규성)
    • 선형성: 잔차의 산점도
    • 독립성: 잔차의 산점도 - 경향성 없이 일정한 분포인가
    • 등분산성: 잔차의 산점도 - 전체적으로 고르게 흩어져있는가
    • 정상성(정규성): 샤피로-월크 검정 / 콜모고로프-스미르노프 검정 / Q-Q Plot

댓글남기기