[빅데이터분석기사 필기] Ⅲ.빅데이터 모델링 - 02. 분석기법 적용 (2) 의사결정나무

3 분 소요

키워드🔑
의사결정나무, 분류함수(분류규칙), 분리기준, 성장, 가지치기, 교차타당성,
카이제곱 통계량, 지니 지수, 엔트로피 지수, 순수도, CART, C4.5 & C5.0, CHAID, QUEST

02. 분석기법 적용

1. 분석기법

3) 의사결정나무

(1) 의사결정나무(Decision Tree)
📌 분류함수를 활용하여, 의사결정규칙으로 이루어진 나무 모양을 그리는 기법

의사결정나무
- 데이터가 가진 속성들로부터
- 분할기준 속성을 판별하고,
- 이에 따라 트리형태로 모델링하는
- 분류예측모델
분류함수: 분류 기준으로 사용되는 함수
- 새로운 표본이 관측되었을 때
- 이 표본을 여러 모집단 중
- 어떤 하나의 모집단으로 분류하기 위한 함수
시각화: 연속적인 의사결정문제 시각화 → 의사결정 이루어지는 시점, 성과파악을 쉽게 해줌
해석용이: 계산결과가 직접적으로 나타남

(2) 의사결정나무의 구성요소
📌 부모마디 / 자식마디 / 뿌리마디 / 끝마디 / 중간마디 / 가지 / 깊이

부모마디: 상위에 있는 마디
자식마디: 분리되어 나간 2개 이상의 마디
뿌리마디: 시작 마디, 전체 자료 포함
끝마디: 자식마디 없음, 잎 노드(Leaf Node)
중간마디: 부모, 자식마디 모두 있음
가지(Branch): 뿌리~끝마디까지 연결된 마디들
깊이(Depth): 뿌리~끝마디까지 중간마디 개수

(3) 해석력과 예측력

해석력: 예를 들어, 은행에서 신용평가 결과 부적격판정인 경우, 이유를 해석할 수 있어야 함
예측력: 예를 들어, 반응이 좋을 고객 모집방안을 알고자 하는 경우, 예측력에 집중해야 함

(4) 의사결정나무의 분석

분석과정: 성장 → 가지치기 → 타당성 평가 → 해석 및 예측
- 성장(Growing): 분리규칙으로 나무성장 → 정지규칙 만족 시 중단
- 가지치기(Pruning): 가지 제거(오류 위험, 부적절한 추론규칙, 불필요)
- 타당성 평가: 교차 타당성 등으로 평가(이익 도표, 위험 도표, 시험 자료 등을 이용)
- 해석 및 예측: 모형 해석 → 데이터 분류 및 예측에 활용
각마디에서의 최적 분리규칙: 분리 변수 선택 & 분리 기준에 의해 결정됨
분리변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향 받음
성장(Grow)
📌 x 들로 이루어진 입력공간을 재귀적으로 분할하는 과정
- 분류 규칙(Splitting Rule): 최적 분할은 분술도 감소량을 가장 크게하는 분할
  - 연속형 분리변수: A = xi ≤ s
  - 범주형 분리변수: A = 1,2,4/ Ac = 3
- 분리 기준(Splitting Criterion)
  - 한 부모마디에서 자식마디들이 형성될 때,
  - 입력변수의 선택과
  - 범주의 병합이 이루어질 기준
  - 순수도: 목표변수의 특정 범주에 개체들이 포함되어 있는 정도
  - 순수도/불순도 측정 → 목표변수의 분포를 가장 잘 구별해주는 자식마디 형성
  - 부모보다 자식마디에서 순수도 증가
- 이산형 목표변수에 사용되는 분리기준: 카이제곱 통계량의 p-value ↓ / 지니 지수 ↓ / 엔트로피 지수 ↓
  - p-value가 가장 작은 예측변수 & 분리
  - 지니 지수를 가장 감소시켜주는 예측변수&분리
  - 엔트로피 지수가 가장 작은 예측변수&분리
- 연속형 목표변수에 사용되는 분리기준: 분산분석의 F-통계량, 분산의 감소량
  - F-통계량 ↑ p-value ↓ p-value가 가장 작은 예측변수&분리
  - 분산의 감소량을 최대화하는 기준&분리
- 정지 규칙(Stopping Rule): 현재 마디가 끝마디가 되도록 하는 규칙
  - 나무 깊이 지정, 끝마디 레코드 최소 개수 지정
가지치기(Prunning)
📌 과대/과소 적합을 방지하기 위해 의사결정나무의 가지를 제거함
- 의사결정나무의 크기 = 복잡도 → 크기가 너무 크면 과대적합 / 너 작으면 과소적합 위험
- 최적의 크기(복잡도)는 대상자료로부터 추정
- 분류 오류를 크게할 위험 or 부적절한 규칙을 가진 가지를 제거함
- 나무의 끝마디가 너무 나오면, 모형이 과대적합되어 규칙을 현실 문제에 적용할 수 없다 → 분류된 관측치의 비율 or MSE 등을 고려하여 과적합 문제를 해결하기 위해 가지치기를 한다

(5) 의사결정나무 알고리즘
📌 CART / C4.5 & C5.0 / CHAID /QUEST

💡
편향(Bias)이란, 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차를 말한다

(6) 의사결정나무 종류
📌 분류나무 / 회귀나무 모형

의사결정나무는 주어진 입력값에 대해 출력값을 예측하는 모형

(7) 의사결정나무 활용 및 장단점

활용: 세분화, 분류, 예측, 차원축소 및 변수선택, 교호작용 효과 파악
- 차원축소 및 변수선택: 목표변수에 큰 영향을 미치는 예측변수들을 구분하고자 할 때
- 교호작용 효과 파악: 여러 예측변수 결합 → 범주의 병합 or 연속형 변수의 이산화
  - 교호작용(interaction): 독립변수간 상호작용이 종속변수에 영향을 주는 현상
장점: 해석 용이, 상호작용 효과 해석 가능, 비모수적 모형, 유연성 및 정확도 높음
- 비모수적 모형: 가정 필요X 이상값에 민감X
- 유연성 및 정확도 높음: 대용량 데이터에서도 빠르게 생성 가능
단점: 비연속성, 선형성 or 주효과 결여, 비안정성
- 비연속성: 연속형변수를 비연속적 값으로 취급 → 경계점 근방에서 예측오류 가능성 큼
- 선형성 or 주효과 결여: 선형모형에서는 각 변수의 영향력을 해석할 수 있는데, 의사결정나무는 불가능
- 비안정성: Training Data에만 의존하면 과대적합 가능성 → 검증용데이터로 교차타당성 평가 or 가지치기 필요
평가: 이익 도표 or 검정용 데이터에 의한 교차 타당성 등을 이용하여, 의사결정나무를 평가함

Twitter Facebook LinkedIn

LEE CHANWOO

[빅데이터분석기사 필기] Ⅲ.빅데이터 모델링 - 02. 분석기법 적용 (2) 의사결정나무

02. 분석기법 적용

1. 분석기법

3) 의사결정나무

공유하기

댓글남기기

참고

[Programming] gRPC란? gRPC와 REST의 차이점

[Python] uv : 패키지 관리 도구

[Python] PEP 8 : Style Guide for Python Code

[Python] PEP 20 : The Zen of Python