2 분 소요

키워드🔑
SVM, 서포트벡터머신, 서포트벡터, 초평면, 슬랙변수, 커널트릭, 연관성분석, 지지도, 신뢰도, 향상도

02. 분석기법 적용

1. 분석 기법

5) 서포트 벡터 머신


(1) 서포트 벡터 머신(SVM; Support Vector Machine)
📌 지도학습 / 이진성형분류

  • 서포트 벡터 머신
    • 데이터들과의 거리가 가장 먼
    • 초평면을 선택하여 분리하는
    • 지도학습 기반의 이전 선형 분류 모델
  • 기준: 초평면(Hyperplane)을 기준으로 데이터를 분리함
  • 활용: 사물/패턴/손글씨 숫자 인식 등
  • 서포트 벡터 머신
    • 공간상 최적의 분리 초평면을 찾음 → 분류 및 회귀
    • 변수 속성 간 의존성 고려 X
    • 모든 속성 활용
    • 훈련시간 느린 편 / 그러나 정확성 ↑
    • 다른 방법보다 과대척합 가능성 ↓
    • R package: e1071, kernlab, klaR 등


(2) 서포트 벡터 머신 종류
📌 하드 마진 SVM / 소프트 마진 SVM

  • 하드 마진(Hard Margin): 오분류 허용 X → 노이즈로 최적의 결정경계 잘못 찾음 or 못 찾음
  • 소프트 마진(Soft Margin): 오분류 허용 O → 어느정도 오류를 허용하는 소프트 마진을 주로 이용함


(3) 서포트 벡터 머신의 구성요소
📌 결정경계 / 초평면 / 마진 / 서포트벡터 / 슬랙변수(여유변수)

  • 결정 경계(Decision Boundary): 데이터 분류 기준
  • 초평면(Hyperplane): N차원 공간의 (N-1)차원 평면 (데이터 분리)
  • 마진(Margin, 여유공간): 결정 경계 ~ 서포트 벡터 간 거리 → 이 마진을 최대화하는 것이 최적의 결정 경계
  • 서포트 벡터(Support Vector): 결정 경계와 가장 가까운 데이터들의 집합 (학습 데이터 중에서)
  • 슬랙 변수(Slack Variable, 여유변수): 완벽한 분리 불가능할 경우 → 허용된 오차를 위한 변수(소프트 마진 SVM에서)


(4) 서포트 벡터 머신 적용 기준
📌 선형으로 분리 가능/불가능

  • 선형 분리 가능 SVM: 최적 결정 경계(초평면) 기준으로 +1과 -1로 구분 → 분류 모델
  • 선형 분리 불가능 SVM: 커널 트릭 활용
    • 커널 함수: 저차원에서 함수의 계산만으로는 원하는 풀이가 가능한 함수
    • 커널 트릭: 커널 함수를 이용하여, 고차원 공간으로 매핑하면서 증가하는 연산량의 문제를 해결하는 기법
    • 따라서, 저차원 공간을 고차원 공간으로 매핑할 때 발생하는 연산의 복잡성을 커널 트릭으로 해결할 수 있다
    • 예를 들어, 2차원에서 분류할 수 없는 문제를 → 3차원 공간에 매핑하여 선형 분류한다
    • 대표적인 커널 함수: 가우시안 RBF 커널 / 다항식 커널 / 시그모이드 커널 등
      • 커널 함수 선택에 명확한 규칙 X 정확도 차이 별로 X

6) 연관성 분석


(1) 연관성 분석(Association Analysis)
📌 데이터 간 관계에서 조건과 반응을 연결하는 분석

  • 연관성 분석 = 장바구니 분석 = 서열 분석
    • 데이터간 내부에 존재하는 항목간 상호관계 or 종속관계를 찾아내는 분석방법
  • 연관성 분석 특징
    • 목적변수X →분석 방향 or 목적 없어도 적용 가능
    • 조건-반응(IF-THEN)으로 표현 → 결과 이해 쉬움
    • 계산 매우 간단
    • 세분화 특징
      • 장점: 적절한 세분화로 인한 품목 결정
      • 단점: 너무 세분화되면 의미 없는 결과


(2) 연관성 분석의 주요 용어
📌 지지도 / 신뢰도 / 향상도

지지도
Support
신뢰도
Confidence
향상도
Lift
P(A⋂B) P(A⋂B) / P(A) P(B│A) / P(B) = 신뢰도 / P(B)
P(A⋂B) / P(A)P(B) = 지지도 / P(A)P(B)
전체 거래 중
A, B 동시에 포함되는 거래 비율
조건부 확률
A 구매 → B 구매
규칙이 우연히 발생한 것인지 판단
거래간 연관성 정도를 측정
  • 향상도(Lift): 1을 기준으로 A, B 사이의 상관관계 측정
    • 향상도 = 1: A, B가 서로 독립적
    • 향상도 > 1: A, B가 양의 상관관계(+)
    • 향상도 < 1: A, B가 음의 상관관계(-)

댓글남기기