3 분 소요

키워드🔑
의사결정나무, 분류함수(분류규칙), 분리기준, 성장, 가지치기, 교차타당성,
카이제곱 통계량, 지니 지수, 엔트로피 지수, 순수도, CART, C4.5 & C5.0, CHAID, QUEST

02. 분석기법 적용

1. 분석기법

3) 의사결정나무


(1) 의사결정나무(Decision Tree)
📌 분류함수를 활용하여, 의사결정규칙으로 이루어진 나무 모양을 그리는 기법

  • 의사결정나무
    • 데이터가 가진 속성들로부터
    • 분할기준 속성을 판별하고,
    • 이에 따라 트리형태로 모델링하는
    • 분류예측모델
  • 분류함수: 분류 기준으로 사용되는 함수
    • 새로운 표본이 관측되었을 때
    • 이 표본을 여러 모집단 중
    • 어떤 하나의 모집단으로 분류하기 위한 함수
  • 시각화: 연속적인 의사결정문제 시각화 → 의사결정 이루어지는 시점, 성과파악을 쉽게 해줌
  • 해석용이: 계산결과가 직접적으로 나타남


(2) 의사결정나무의 구성요소
📌 부모마디 / 자식마디 / 뿌리마디 / 끝마디 / 중간마디 / 가지 / 깊이

  • 부모마디: 상위에 있는 마디
  • 자식마디: 분리되어 나간 2개 이상의 마디
  • 뿌리마디: 시작 마디, 전체 자료 포함
  • 끝마디: 자식마디 없음, 잎 노드(Leaf Node)
  • 중간마디: 부모, 자식마디 모두 있음
  • 가지(Branch): 뿌리~끝마디까지 연결된 마디들
  • 깊이(Depth): 뿌리~끝마디까지 중간마디 개수


(3) 해석력과 예측력

  • 해석력: 예를 들어, 은행에서 신용평가 결과 부적격판정인 경우, 이유를 해석할 수 있어야 함
  • 예측력: 예를 들어, 반응이 좋을 고객 모집방안을 알고자 하는 경우, 예측력에 집중해야 함


(4) 의사결정나무의 분석

  • 분석과정: 성장 → 가지치기 → 타당성 평가 → 해석 및 예측
    • 성장(Growing): 분리규칙으로 나무성장 → 정지규칙 만족 시 중단
    • 가지치기(Pruning): 가지 제거(오류 위험, 부적절한 추론규칙, 불필요)
    • 타당성 평가: 교차 타당성 등으로 평가(이익 도표, 위험 도표, 시험 자료 등을 이용)
    • 해석 및 예측: 모형 해석 → 데이터 분류 및 예측에 활용
  • 각마디에서의 최적 분리규칙: 분리 변수 선택 & 분리 기준에 의해 결정됨
  • 분리변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향 받음
  • 성장(Grow)
    📌 x 들로 이루어진 입력공간을 재귀적으로 분할하는 과정
    • 분류 규칙(Splitting Rule): 최적 분할은 분술도 감소량을 가장 크게하는 분할
      • 연속형 분리변수: A = xi ≤ s
      • 범주형 분리변수: A = 1,2,4/ Ac = 3
    • 분리 기준(Splitting Criterion)
      • 한 부모마디에서 자식마디들이 형성될 때,
      • 입력변수의 선택과
      • 범주의 병합이 이루어질 기준
      • 순수도: 목표변수의 특정 범주에 개체들이 포함되어 있는 정도
      • 순수도/불순도 측정 → 목표변수의 분포를 가장 잘 구별해주는 자식마디 형성
      • 부모보다 자식마디에서 순수도 증가
    • 이산형 목표변수에 사용되는 분리기준: 카이제곱 통계량의 p-value ↓ / 지니 지수 ↓ / 엔트로피 지수 ↓
      • p-value가 가장 작은 예측변수 & 분리
      • 지니 지수를 가장 감소시켜주는 예측변수&분리
      • 엔트로피 지수가 가장 작은 예측변수&분리
    • 연속형 목표변수에 사용되는 분리기준: 분산분석의 F-통계량, 분산의 감소량
      • F-통계량 ↑ p-value ↓ p-value가 가장 작은 예측변수&분리
      • 분산의 감소량을 최대화하는 기준&분리
    • 정지 규칙(Stopping Rule): 현재 마디가 끝마디가 되도록 하는 규칙
      • 나무 깊이 지정, 끝마디 레코드 최소 개수 지정
  • 가지치기(Prunning)
    📌 과대/과소 적합을 방지하기 위해 의사결정나무의 가지를 제거함
    • 의사결정나무의 크기 = 복잡도 → 크기가 너무 크면 과대적합 / 너 작으면 과소적합 위험
    • 최적의 크기(복잡도)는 대상자료로부터 추정
    • 분류 오류를 크게할 위험 or 부적절한 규칙을 가진 가지를 제거함
    • 나무의 끝마디가 너무 나오면, 모형이 과대적합되어 규칙을 현실 문제에 적용할 수 없다 → 분류된 관측치의 비율 or MSE 등을 고려하여 과적합 문제를 해결하기 위해 가지치기를 한다


(5) 의사결정나무 알고리즘
📌 CART / C4.5 & C5.0 / CHAID /QUEST

💡
편향(Bias)이란, 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차를 말한다


(6) 의사결정나무 종류
📌 분류나무 / 회귀나무 모형

  • 의사결정나무는 주어진 입력값에 대해 출력값을 예측하는 모형


(7) 의사결정나무 활용 및 장단점

  • 활용: 세분화, 분류, 예측, 차원축소 및 변수선택, 교호작용 효과 파악
    • 차원축소 및 변수선택: 목표변수에 큰 영향을 미치는 예측변수들을 구분하고자 할 때
    • 교호작용 효과 파악: 여러 예측변수 결합 → 범주의 병합 or 연속형 변수의 이산화
      • 교호작용(interaction): 독립변수간 상호작용이 종속변수에 영향을 주는 현상
  • 장점: 해석 용이, 상호작용 효과 해석 가능, 비모수적 모형, 유연성 및 정확도 높음
    • 비모수적 모형: 가정 필요X 이상값에 민감X
    • 유연성 및 정확도 높음: 대용량 데이터에서도 빠르게 생성 가능
  • 단점: 비연속성, 선형성 or 주효과 결여, 비안정성
    • 비연속성: 연속형변수를 비연속적 값으로 취급 → 경계점 근방에서 예측오류 가능성 큼
    • 선형성 or 주효과 결여: 선형모형에서는 각 변수의 영향력을 해석할 수 있는데, 의사결정나무는 불가능
    • 비안정성: Training Data에만 의존하면 과대적합 가능성 → 검증용데이터로 교차타당성 평가 or 가지치기 필요
  • 평가: 이익 도표 or 검정용 데이터에 의한 교차 타당성 등을 이용하여, 의사결정나무를 평가함

댓글남기기