[빅데이터분석기사 필기] Ⅳ.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (1)

3 분 소요

키워드🔑
회귀 모형 평가지표, SSE, SST, SSR, R²=결정계수, R²adj, Mallow’s Cp,
분류 모형 평가지표, 혼동 행렬, ROC 곡선, AUC, 이익도표, 홀드 아웃 교차 검증, 다중 교차 검증,
정확도, 오차비율,민감도, 특이도, 거짓긍정률, 정밀도, F1-score, 카파통계량

01. 분석 모형 평가 및 개선

1. 분석 모형 평가

< 분석 모형 평가 >

모형의 유용성 판단, 비교, 평가 과정은 중요하다
모형을 만든 것으로 끝이 아니다
- 객관적인 평가지표를 통해 실무에서 사용 가능한지 평가
- 기존 운영시스템과의 연계/통합을 통해 지속적인 개선
분석 모형 평가란 다음 사항들에 대해 분석하는 것
- 구축된 모형이 임의의 모형보다 더 우수한 성과를 보이는가
- 고려된 모형들 중 어느 것이 가장 우수한가
분석 모형 평가 기준
- 일반화의 가능성: 데이터 확장 적용이 가능한가 → 모집단 내 다른 데이터에서도 결과가 안정적인지 평가
- 효율성: 필요한 입력변수가 적을수록 효율적
- 예측&분류 정확성

1) 평가지표

모형 종류	회귀 모형 = 예측 모형	분류 모형
평가 지표	-실제값(yi)/ 예측값(yi_hat)/ 평균값(y_bar) -오차제곱합 SSE/전체제곱합 SST/회귀제곱합 SSR -R² = SSR/SST, R²adj, Mallow’s Cp	-혼동 행렬, 정확도, 민감도, 정밀도, F1-score -ROC Curve, AUC (Area Under ROC) -이익도표 (Gain Chart)

(1) 회귀 모형 평가지표
📌 SSE / SST / SSR / R²=결정계수 / R²adj / Mallow’s Cp

회귀 모형 평가지표: SSE(오차제곱합)/SST(전체제곱합)/SSR(회귀제곱합)/AE/MAE/RMSE/MAPE/MPE
- SSE = 오차제곱합 = 예측값과 실젯값의 차이(오차) 제곱 합
- SST = 전체제곱합 = 실쳇값과 평균값의 차이 제곱 합
- SSR = 회귀제곱합 = 예측값과 평균값의 차이 제곱 합
- AE = Average Error = 평균 오차
- MAE = Mean Absolute Error = 평균 절대 오차
- RMSE = Root Mean Squared Error = 평균 제곱근 오차
- MAPE = Mean Absolute Percentage Error = 평균 절대 백분율 오차
- MPE = Mean Percentage Error = 평균 백분율 오차
회귀 모형 성능 검증지표: R²(결정계수)/R²adj(수정된 결정계수)/Mallow’s Cp
- 결정계수
  - 회귀모형이 실제값을 얼마나 잘 나타내는지에 대한 비율(0~1)
  - 독립변수 개수가 많은 모형의 경우 부적합
  - 단점: 모형의 변수 개수가 증가할 때, 그 변수가 유의하지 않더라도 결정계수는 증가한다
- 수정된 결정계수
  - 결정계수의 단점을 보완함 → 수정된 결정계수는 결정계수보다 항상 작음
  - 유의하지 않은 독립변수를 추가할수록, 패널티 부과 → 감소
  - 모형이 유용한 독립변수를 추가할수록 → 증가
  - 따라서, 독립변수 개수가 많은 모형에 적합
- Mallow’s Cp = 적절하지 않은 독립변수 추가에 대한 패널티를 부과한 통계량
  - 값이 작을수록 실젯값을 잘 설명하는 모형

(2) 분류 모형 평가지표
📌 혼동 행렬 / ROC 곡선 / AUC / 이익도표

혼동 행렬(Confusion Matrix)(정오 행렬)
- 모델이 분류한 예측범주와 실제 분류범주를 교차표로 정리한 행렬(N⨉N)
  - TP, FN, FP, TN
- 예측값과 실제값이 일차빈도를 통해 모델 정확도 평가
- 모델 성능을 평가할 수 있는 평가지표 도출
  - 정확도: 실제 분류를 정확하게 예측한 비율
  - 오차비율: 1 - 정확도
  - 민감도 재현율: 실제 P를 P로 예측한 비율
  - 특이도: 실제 N을 N으로 예측한 비율
  - 거짓긍정률: 1 - 특이도
  - 정밀도: P로 예측한 것들 중, 실제 P인 비율
  - F1-score(F-measure): 정밀도와 민감도(재현율)을 합한 평가지표(조화평균)
  - 카파통계량(Kappa Statistics): 두 관찰자가 측정한 범주값의 일치도를 측정
ROC 곡선(ROC Curve)
- 가로축 = 거짓긍정률
- 세로축 = 민감도
- FP rate - TP rate 반비례 관계(Trade-ofF)
- ROC 곡선이 왼쪽 꼭대기에 가까워질수록, 분류 성능 우수함
- AUC(Area Under ROC) = ROC 곡선 아래 면적
- 0.5 ~ 1.0 사이의 값
- 1에 가까울수록, 모델 정확도 높음
이익 도표(Gain Chart)
- 그래프를 통해 분류모형의 성능을 평가함(이익 도표 = 이익 곡선 = 리프트 곡선)
- 이익(Gain)
  - 목표범주에 속한 개체들이 임의로 나눈 등급별로 얼마나 분포하고 있는지 나타내는 값

2) 분석 모형 진단

(1) 데이터 분석 모형의 오류
📌 일반화 오류 / 학습 오류

일반화 오류(Generalization Error)
- 주어진 데이터의 특성을 지나치게 반영 → 주변특성&단순잡음 묘사 → 과대 적합
학습 오류(Training Error): 주어진 데이터의 특성을 덜 반영하도록 모형 생성 → 과소 적합

(2) 데이터 분석 모형 검증
📌 홀드 아웃 교차 검증 / 다중 교차 검증

홀드 아웃 교차 검증
- 데이터 집합 구분: 서로 겹치지 않는 학습집합, 시험집합으로 무작위 구분
- 학습집합으로 분석모형을 구축
- 시험집합으로 분석모형의 성능 평가
다중교차 검증
- 데이터 집합 나눔: 같은 크기의 부분집합 k개로 무작위 나눔
- k개 부분집합 = 1개는 시험집합 + (k-1)개는 학습집합
- 종류: Random Sub-Sampling, K-Fold Cross Validation, Leave-One-Out Cross Validation, Bootstrap

(3) 분석 모형 시각화
📌 정보 구조화 → 정보 시각화 → 정보 시각표현

시각화: 그래프/그림과 같은 시각적 도구를 통해 의사결정자에게 제공하여, 분석결과를 쉽게 이해할 수 있게 한다
정보 구조화: 데이터 수집 및 탐색/데이터 분류/데이터 배열/데이터 재배열
정보 시각화: 시각/분포/관계/비교/공간 시각화
정보 시각표현: 그래픽 7요소/그래픽디자인 기본원리/인터랙션(Interaction)/시각정보디자인 7원칙

(4) 분석 모형 진단
📌 기본 가정 진단/잔차의 산점도

선정한 분석모형의 기본가정에 대한 진단이 필요하다
회귀모형은 잔차의 산점도를 이용하여 모형 진단: 선형성/독립성/등분산성/정상성(정규성)
- 선형성: 잔차의 산점도
- 독립성: 잔차의 산점도 - 경향성 없이 일정한 분포인가
- 등분산성: 잔차의 산점도 - 전체적으로 고르게 흩어져있는가
- 정상성(정규성): 샤피로-월크 검정 / 콜모고로프-스미르노프 검정 / Q-Q Plot

Twitter Facebook LinkedIn

LEE CHANWOO

[빅데이터분석기사 필기] Ⅳ.빅데이터 결과 해석 - 01. 분석 모형 평가 및 개선 (1)

01. 분석 모형 평가 및 개선

1. 분석 모형 평가

1) 평가지표

2) 분석 모형 진단

공유하기

댓글남기기

참고

[Machine Learning] VAE : Encoder, Auto Encoder 그리고 Variational Auto Encoder

[논문 리뷰] Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators

[Network] 네트워크 터널링 : Cloudflare Tunnel로 로컬 환경을 안전하게 외부로 연결하기

[Machine Learning] SMOTE : 불균형 데이터 합성 샘플링 가이드