[빅데이터분석기사 필기] Ⅳ.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (1)
키워드🔑
회귀 모형 평가지표, SSE, SST, SSR, R²=결정계수, R²adj, Mallow’s Cp,
분류 모형 평가지표, 혼동 행렬, ROC 곡선, AUC, 이익도표, 홀드 아웃 교차 검증, 다중 교차 검증,
정확도, 오차비율,민감도, 특이도, 거짓긍정률, 정밀도, F1-score, 카파통계량
01. 분석 모형 평가 및 개선
1. 분석 모형 평가
< 분석 모형 평가 >
- 모형의 유용성 판단, 비교, 평가 과정은 중요하다
- 모형을 만든 것으로 끝이 아니다
- 객관적인 평가지표를 통해 실무에서 사용 가능한지 평가
- 기존 운영시스템과의 연계/통합을 통해 지속적인 개선
- 분석 모형 평가란 다음 사항들에 대해 분석하는 것
- 구축된 모형이 임의의 모형보다 더 우수한 성과를 보이는가
- 고려된 모형들 중 어느 것이 가장 우수한가
- 분석 모형 평가 기준
- 일반화의 가능성: 데이터 확장 적용이 가능한가 → 모집단 내 다른 데이터에서도 결과가 안정적인지 평가
- 효율성: 필요한 입력변수가 적을수록 효율적
- 예측&분류 정확성
1) 평가지표
모형 종류 | 회귀 모형 = 예측 모형 | 분류 모형 |
---|---|---|
평가 지표 | -실제값(yi)/ 예측값(yi_hat)/ 평균값(y_bar) -오차제곱합 SSE/전체제곱합 SST/회귀제곱합 SSR -R² = SSR/SST, R²adj, Mallow’s Cp |
-혼동 행렬, 정확도, 민감도, 정밀도, F1-score -ROC Curve, AUC (Area Under ROC) -이익도표 (Gain Chart) |
(1) 회귀 모형 평가지표
📌 SSE / SST / SSR / R²=결정계수 / R²adj / Mallow’s Cp
- 회귀 모형 평가지표: SSE(오차제곱합)/SST(전체제곱합)/SSR(회귀제곱합)/AE/MAE/RMSE/MAPE/MPE
- SSE = 오차제곱합 = 예측값과 실젯값의 차이(오차) 제곱 합
- SST = 전체제곱합 = 실쳇값과 평균값의 차이 제곱 합
- SSR = 회귀제곱합 = 예측값과 평균값의 차이 제곱 합
- AE = Average Error = 평균 오차
- MAE = Mean Absolute Error = 평균 절대 오차
- RMSE = Root Mean Squared Error = 평균 제곱근 오차
- MAPE = Mean Absolute Percentage Error = 평균 절대 백분율 오차
- MPE = Mean Percentage Error = 평균 백분율 오차
- 회귀 모형 성능 검증지표: R²(결정계수)/R²adj(수정된 결정계수)/Mallow’s Cp
- 결정계수
- 회귀모형이 실제값을 얼마나 잘 나타내는지에 대한 비율(0~1)
- 독립변수 개수가 많은 모형의 경우 부적합
- 단점: 모형의 변수 개수가 증가할 때, 그 변수가 유의하지 않더라도 결정계수는 증가한다
- 수정된 결정계수
- 결정계수의 단점을 보완함 → 수정된 결정계수는 결정계수보다 항상 작음
- 유의하지 않은 독립변수를 추가할수록, 패널티 부과 → 감소
- 모형이 유용한 독립변수를 추가할수록 → 증가
- 따라서, 독립변수 개수가 많은 모형에 적합
- Mallow’s Cp = 적절하지 않은 독립변수 추가에 대한 패널티를 부과한 통계량
- 값이 작을수록 실젯값을 잘 설명하는 모형
- 결정계수
(2) 분류 모형 평가지표
📌 혼동 행렬 / ROC 곡선 / AUC / 이익도표
- 혼동 행렬(Confusion Matrix)(정오 행렬)
- 모델이 분류한 예측범주와 실제 분류범주를 교차표로 정리한 행렬(N⨉N)
- TP, FN, FP, TN
- 예측값과 실제값이 일차빈도를 통해 모델 정확도 평가
- 모델 성능을 평가할 수 있는 평가지표 도출
- 정확도: 실제 분류를 정확하게 예측한 비율
- 오차비율: 1 - 정확도
- 민감도 재현율: 실제 P를 P로 예측한 비율
- 특이도: 실제 N을 N으로 예측한 비율
- 거짓긍정률: 1 - 특이도
- 정밀도: P로 예측한 것들 중, 실제 P인 비율
- F1-score(F-measure): 정밀도와 민감도(재현율)을 합한 평가지표(조화평균)
- 카파통계량(Kappa Statistics): 두 관찰자가 측정한 범주값의 일치도를 측정
- 모델이 분류한 예측범주와 실제 분류범주를 교차표로 정리한 행렬(N⨉N)
- ROC 곡선(ROC Curve)
- 가로축 = 거짓긍정률
- 세로축 = 민감도
- FP rate - TP rate 반비례 관계(Trade-ofF)
- ROC 곡선이 왼쪽 꼭대기에 가까워질수록, 분류 성능 우수함
- AUC(Area Under ROC) = ROC 곡선 아래 면적
- 0.5 ~ 1.0 사이의 값
- 1에 가까울수록, 모델 정확도 높음
- 이익 도표(Gain Chart)
- 그래프를 통해 분류모형의 성능을 평가함(이익 도표 = 이익 곡선 = 리프트 곡선)
- 이익(Gain)
- 목표범주에 속한 개체들이 임의로 나눈 등급별로 얼마나 분포하고 있는지 나타내는 값
2) 분석 모형 진단
(1) 데이터 분석 모형의 오류
📌 일반화 오류 / 학습 오류
- 일반화 오류(Generalization Error)
- 주어진 데이터의 특성을 지나치게 반영 → 주변특성&단순잡음 묘사 → 과대 적합
- 학습 오류(Training Error): 주어진 데이터의 특성을 덜 반영하도록 모형 생성 → 과소 적합
(2) 데이터 분석 모형 검증
📌 홀드 아웃 교차 검증 / 다중 교차 검증
- 홀드 아웃 교차 검증
- 데이터 집합 구분: 서로 겹치지 않는 학습집합, 시험집합으로 무작위 구분
- 학습집합으로 분석모형을 구축
- 시험집합으로 분석모형의 성능 평가
- 다중교차 검증
- 데이터 집합 나눔: 같은 크기의 부분집합 k개로 무작위 나눔
- k개 부분집합 = 1개는 시험집합 + (k-1)개는 학습집합
- 종류: Random Sub-Sampling, K-Fold Cross Validation, Leave-One-Out Cross Validation, Bootstrap
(3) 분석 모형 시각화
📌 정보 구조화 → 정보 시각화 → 정보 시각표현
- 시각화: 그래프/그림과 같은 시각적 도구를 통해 의사결정자에게 제공하여, 분석결과를 쉽게 이해할 수 있게 한다
- 정보 구조화: 데이터 수집 및 탐색/데이터 분류/데이터 배열/데이터 재배열
- 정보 시각화: 시각/분포/관계/비교/공간 시각화
- 정보 시각표현: 그래픽 7요소/그래픽디자인 기본원리/인터랙션(Interaction)/시각정보디자인 7원칙
(4) 분석 모형 진단
📌 기본 가정 진단/잔차의 산점도
- 선정한 분석모형의 기본가정에 대한 진단이 필요하다
- 회귀모형은 잔차의 산점도를 이용하여 모형 진단: 선형성/독립성/등분산성/정상성(정규성)
- 선형성: 잔차의 산점도
- 독립성: 잔차의 산점도 - 경향성 없이 일정한 분포인가
- 등분산성: 잔차의 산점도 - 전체적으로 고르게 흩어져있는가
- 정상성(정규성): 샤피로-월크 검정 / 콜모고로프-스미르노프 검정 / Q-Q Plot
댓글남기기