[빅데이터분석기사 필기] Ⅲ.빅데이터 모델링 - 02. 분석기법 적용 (4) SVM, 연관성분석
키워드🔑
SVM, 서포트벡터머신, 서포트벡터, 초평면, 슬랙변수, 커널트릭, 연관성분석, 지지도, 신뢰도, 향상도
02. 분석기법 적용
1. 분석 기법
5) 서포트 벡터 머신
(1) 서포트 벡터 머신(SVM; Support Vector Machine)
📌 지도학습 / 이진성형분류
- 서포트 벡터 머신
- 데이터들과의 거리가 가장 먼
- 초평면을 선택하여 분리하는
- 지도학습 기반의 이전 선형 분류 모델
- 기준: 초평면(Hyperplane)을 기준으로 데이터를 분리함
- 활용: 사물/패턴/손글씨 숫자 인식 등
- 서포트 벡터 머신
- 공간상 최적의 분리 초평면을 찾음 → 분류 및 회귀
- 변수 속성 간 의존성 고려 X
- 모든 속성 활용
- 훈련시간 느린 편 / 그러나 정확성 ↑
- 다른 방법보다 과대척합 가능성 ↓
- R package: e1071, kernlab, klaR 등
(2) 서포트 벡터 머신 종류
📌 하드 마진 SVM / 소프트 마진 SVM
- 하드 마진(Hard Margin): 오분류 허용 X → 노이즈로 최적의 결정경계 잘못 찾음 or 못 찾음
- 소프트 마진(Soft Margin): 오분류 허용 O → 어느정도 오류를 허용하는 소프트 마진을 주로 이용함
(3) 서포트 벡터 머신의 구성요소
📌 결정경계 / 초평면 / 마진 / 서포트벡터 / 슬랙변수(여유변수)
- 결정 경계(Decision Boundary): 데이터 분류 기준
- 초평면(Hyperplane): N차원 공간의 (N-1)차원 평면 (데이터 분리)
- 마진(Margin, 여유공간): 결정 경계 ~ 서포트 벡터 간 거리 → 이 마진을 최대화하는 것이 최적의 결정 경계
- 서포트 벡터(Support Vector): 결정 경계와 가장 가까운 데이터들의 집합 (학습 데이터 중에서)
- 슬랙 변수(Slack Variable, 여유변수): 완벽한 분리 불가능할 경우 → 허용된 오차를 위한 변수(소프트 마진 SVM에서)
(4) 서포트 벡터 머신 적용 기준
📌 선형으로 분리 가능/불가능
- 선형 분리 가능 SVM: 최적 결정 경계(초평면) 기준으로 +1과 -1로 구분 → 분류 모델
- 선형 분리 불가능 SVM: 커널 트릭 활용
- 커널 함수: 저차원에서 함수의 계산만으로는 원하는 풀이가 가능한 함수
- 커널 트릭: 커널 함수를 이용하여, 고차원 공간으로 매핑하면서 증가하는 연산량의 문제를 해결하는 기법
- 따라서, 저차원 공간을 고차원 공간으로 매핑할 때 발생하는 연산의 복잡성을 커널 트릭으로 해결할 수 있다
- 예를 들어, 2차원에서 분류할 수 없는 문제를 → 3차원 공간에 매핑하여 선형 분류한다
- 대표적인 커널 함수: 가우시안 RBF 커널 / 다항식 커널 / 시그모이드 커널 등
- 커널 함수 선택에 명확한 규칙 X 정확도 차이 별로 X
6) 연관성 분석
(1) 연관성 분석(Association Analysis)
📌 데이터 간 관계에서 조건과 반응을 연결하는 분석
- 연관성 분석 = 장바구니 분석 = 서열 분석
- 데이터간 내부에 존재하는 항목간 상호관계 or 종속관계를 찾아내는 분석방법
- 연관성 분석 특징
- 목적변수X →분석 방향 or 목적 없어도 적용 가능
- 조건-반응(IF-THEN)으로 표현 → 결과 이해 쉬움
- 계산 매우 간단
- 세분화 특징
- 장점: 적절한 세분화로 인한 품목 결정
- 단점: 너무 세분화되면 의미 없는 결과
(2) 연관성 분석의 주요 용어
📌 지지도 / 신뢰도 / 향상도
지지도 Support |
신뢰도 Confidence |
향상도 Lift |
---|---|---|
P(A⋂B) | P(A⋂B) / P(A) | P(B│A) / P(B) = 신뢰도 / P(B) P(A⋂B) / P(A)P(B) = 지지도 / P(A)P(B) |
전체 거래 중 A, B 동시에 포함되는 거래 비율 |
조건부 확률 A 구매 → B 구매 |
규칙이 우연히 발생한 것인지 판단 거래간 연관성 정도를 측정 |
- 향상도(Lift): 1을 기준으로 A, B 사이의 상관관계 측정
- 향상도 = 1: A, B가 서로 독립적
- 향상도 > 1: A, B가 양의 상관관계(+)
- 향상도 < 1: A, B가 음의 상관관계(-)
댓글남기기