[빅데이터분석기사 필기] Ⅲ.빅데이터 모델링 - 02. 분석기법 적용 (2) 의사결정나무
키워드🔑
의사결정나무, 분류함수(분류규칙), 분리기준, 성장, 가지치기, 교차타당성,
카이제곱 통계량, 지니 지수, 엔트로피 지수, 순수도, CART, C4.5 & C5.0, CHAID, QUEST
02. 분석기법 적용
1. 분석기법
3) 의사결정나무
(1) 의사결정나무(Decision Tree)
📌 분류함수를 활용하여, 의사결정규칙으로 이루어진 나무 모양을 그리는 기법
- 의사결정나무
- 데이터가 가진 속성들로부터
- 분할기준 속성을 판별하고,
- 이에 따라 트리형태로 모델링하는
- 분류예측모델
- 분류함수: 분류 기준으로 사용되는 함수
- 새로운 표본이 관측되었을 때
- 이 표본을 여러 모집단 중
- 어떤 하나의 모집단으로 분류하기 위한 함수
- 시각화: 연속적인 의사결정문제 시각화 → 의사결정 이루어지는 시점, 성과파악을 쉽게 해줌
- 해석용이: 계산결과가 직접적으로 나타남
(2) 의사결정나무의 구성요소
📌 부모마디 / 자식마디 / 뿌리마디 / 끝마디 / 중간마디 / 가지 / 깊이
- 부모마디: 상위에 있는 마디
- 자식마디: 분리되어 나간 2개 이상의 마디
- 뿌리마디: 시작 마디, 전체 자료 포함
- 끝마디: 자식마디 없음, 잎 노드(Leaf Node)
- 중간마디: 부모, 자식마디 모두 있음
- 가지(Branch): 뿌리~끝마디까지 연결된 마디들
- 깊이(Depth): 뿌리~끝마디까지 중간마디 개수
(3) 해석력과 예측력
- 해석력: 예를 들어, 은행에서 신용평가 결과 부적격판정인 경우, 이유를 해석할 수 있어야 함
- 예측력: 예를 들어, 반응이 좋을 고객 모집방안을 알고자 하는 경우, 예측력에 집중해야 함
(4) 의사결정나무의 분석
- 분석과정: 성장 → 가지치기 → 타당성 평가 → 해석 및 예측
- 성장(Growing): 분리규칙으로 나무성장 → 정지규칙 만족 시 중단
- 가지치기(Pruning): 가지 제거(오류 위험, 부적절한 추론규칙, 불필요)
- 타당성 평가: 교차 타당성 등으로 평가(이익 도표, 위험 도표, 시험 자료 등을 이용)
- 해석 및 예측: 모형 해석 → 데이터 분류 및 예측에 활용
- 각마디에서의 최적 분리규칙: 분리 변수 선택 & 분리 기준에 의해 결정됨
- 분리변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향 받음
- 성장(Grow)
📌 x 들로 이루어진 입력공간을 재귀적으로 분할하는 과정- 분류 규칙(Splitting Rule): 최적 분할은 분술도 감소량을 가장 크게하는 분할
- 연속형 분리변수: A = xi ≤ s
- 범주형 분리변수: A = 1,2,4/ Ac = 3
- 분리 기준(Splitting Criterion)
- 한 부모마디에서 자식마디들이 형성될 때,
- 입력변수의 선택과
- 범주의 병합이 이루어질 기준
- 순수도: 목표변수의 특정 범주에 개체들이 포함되어 있는 정도
- 순수도/불순도 측정 → 목표변수의 분포를 가장 잘 구별해주는 자식마디 형성
- 부모보다 자식마디에서 순수도 증가
- 이산형 목표변수에 사용되는 분리기준: 카이제곱 통계량의 p-value ↓ / 지니 지수 ↓ / 엔트로피 지수 ↓
- p-value가 가장 작은 예측변수 & 분리
- 지니 지수를 가장 감소시켜주는 예측변수&분리
- 엔트로피 지수가 가장 작은 예측변수&분리
- 연속형 목표변수에 사용되는 분리기준: 분산분석의 F-통계량, 분산의 감소량
- F-통계량 ↑ p-value ↓ p-value가 가장 작은 예측변수&분리
- 분산의 감소량을 최대화하는 기준&분리
- 정지 규칙(Stopping Rule): 현재 마디가 끝마디가 되도록 하는 규칙
- 나무 깊이 지정, 끝마디 레코드 최소 개수 지정
- 나무 깊이 지정, 끝마디 레코드 최소 개수 지정
- 분류 규칙(Splitting Rule): 최적 분할은 분술도 감소량을 가장 크게하는 분할
- 가지치기(Prunning)
📌 과대/과소 적합을 방지하기 위해 의사결정나무의 가지를 제거함- 의사결정나무의 크기 = 복잡도 → 크기가 너무 크면 과대적합 / 너 작으면 과소적합 위험
- 최적의 크기(복잡도)는 대상자료로부터 추정
- 분류 오류를 크게할 위험 or 부적절한 규칙을 가진 가지를 제거함
- 나무의 끝마디가 너무 나오면, 모형이 과대적합되어 규칙을 현실 문제에 적용할 수 없다 → 분류된 관측치의 비율 or MSE 등을 고려하여 과적합 문제를 해결하기 위해 가지치기를 한다
(5) 의사결정나무 알고리즘
📌 CART / C4.5 & C5.0 / CHAID /QUEST
💡
편향(Bias)이란, 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차를 말한다
(6) 의사결정나무 종류
📌 분류나무 / 회귀나무 모형
- 의사결정나무는 주어진 입력값에 대해 출력값을 예측하는 모형
(7) 의사결정나무 활용 및 장단점
- 활용: 세분화, 분류, 예측, 차원축소 및 변수선택, 교호작용 효과 파악
- 차원축소 및 변수선택: 목표변수에 큰 영향을 미치는 예측변수들을 구분하고자 할 때
- 교호작용 효과 파악: 여러 예측변수 결합 → 범주의 병합 or 연속형 변수의 이산화
- 교호작용(interaction): 독립변수간 상호작용이 종속변수에 영향을 주는 현상
- 장점: 해석 용이, 상호작용 효과 해석 가능, 비모수적 모형, 유연성 및 정확도 높음
- 비모수적 모형: 가정 필요X 이상값에 민감X
- 유연성 및 정확도 높음: 대용량 데이터에서도 빠르게 생성 가능
- 단점: 비연속성, 선형성 or 주효과 결여, 비안정성
- 비연속성: 연속형변수를 비연속적 값으로 취급 → 경계점 근방에서 예측오류 가능성 큼
- 선형성 or 주효과 결여: 선형모형에서는 각 변수의 영향력을 해석할 수 있는데, 의사결정나무는 불가능
- 비안정성: Training Data에만 의존하면 과대적합 가능성 → 검증용데이터로 교차타당성 평가 or 가지치기 필요
- 평가: 이익 도표 or 검정용 데이터에 의한 교차 타당성 등을 이용하여, 의사결정나무를 평가함
댓글남기기