4 분 소요

키워드🔑
분석모형, 통계기반, 기술통계, 상관분석, 회귀분석, 분산분석, 주성분분석, 판별분석,
데이터마이닝, 분류, 예측, 군집화, 연관규칙, 머신러닝, 지도학습, 비지도학습

01. 분석모형 설계

1. 분석 절차 수립

1) 분석 모형 선정

  • 분석 목적 부함 & 데이터 변수 고려 → 분석 모형 선정
  • 모형(모델): 객체, 시스템, 개념에 대한 구조나 작업을 보여주기 위한 패턴, 계획, 설명
  • 탐색적 데이터 분석(EDA): 현상에서 패턴 발견
  • 통계적 추론: 현상에서 결론 도출
  • 기계학습: 현상을 예측
통계 기반 데이터마이닝 기반 머신러닝 기반
기술통계
상관분석
회귀분석
분산분석
주성분분석
판별분석
<분류>
통계적기법-로지스틱회귀, 판별분석
트리기반기법-CART알고리즘
최적화기법-서포트벡터머신
기계학습-역전파알고리즘

<예측>
회귀분석
의사결정나무
시계열분석
인공신경망

군집화-계층적/비계층적
연관규칙 모델(장바구니분석)
<지도학습>
로지스틱회귀
인공신경망
의사결정나무
서포트벡터머신
랜덤포레스트
감성분석

<비지도학습>
군집화
차원축소기법
연관관계분석
인공신경망(자가조직화지도)

(1) 통계기반 분석 모형 선정
📌 기술통계 / 상관분석 / 회귀분석 / 분산분석 / 주성분분석 / 판별분석

  • 통계분석
    • 불확실한 상황에서
    • 객관적인 의사결정을 수행하기 위해
    • 데이터를 수집, 처리, 분류, 분석, 해석하는 일련의 체계
  • 기술통계(Descriptive Statistics): 분석 초기에 데이터를 확률/통계적으로 정리/요약하는 기초적인 통계
    • 통계적 수치: 평균, 분산, 표준편차, 왜도, 첨도, 빈도 등
    • 그래프 활용: 막대그래프/파이그래프 등
  • 상관분석(Correlation Analysis): 2개 이상의 변수간 상호연관성의 정도를 측정
    • 단순 상관분석: 2개 변수 사이의 연관관계
    • 다중 상관분석: 3개 이상의 변수 사의의 연관관계
    • 변수간 상관분석: 수치적, 명목적, 순서적 데이터 변수간 분석
  • 회귀분석(Regression Analysis): 1개 이상의 독립변수가 종속변수에 미치는 영향을 추정
    • 단순 회귀: 독립변수 1개 / 직선관계
    • 다중 회귀: 독립변수 2개 이상 / 선형 관계
    • 다항 회귀: (독립변수 1개/2차함수이상) or (독립변수 2개/1차함수 이상)
    • 곡선 회귀: 독립변수 1개 / 곡선관계
    • 로지스틱 회귀: 종속변수 범주형(단순/다중/다항)
    • 비선형 회귀: 선형관계X
  • 분산분석(ANOVA): 2개 이상의 집단간 비교 (분산비교)
    • 일원 분산분석: 독립변수 1개 / 종속변수 1개
    • 이원 분산분석: 독립변수 2개 / 종속변수 1개
    • 다변량 분산분석: 종속변수 2개 이상
  • 주성분분석(PCA): 주성분 변수를 원래 변수들의 선형결합으로 추출하는 통계기법
    • 일분 주성분에 의해 원래 변수의 변동이 충분히 설명되는가
  • 판별분석(Discriminant Analysis): 집단을 구별할 수 있는 판별규칙/함수 → 새로운 개체가 어떤 집단인지 탐색

(2) 데이터마이닝 기반 분석 모형 선정
📌 분류 / 예측 / 군집화 / 연관규칙

  • 데이터마이닝(Data Mining)
    • 대용량 데이터로부터
    • 데이터 내의 패턴, 관계, 규칙 등을 탐색하고,
    • 통계적인 기법으로 모델화하여,
    • 유용한 정보, 지식을 추출
  • 기술(Description)
    • 사람, 상품에 대한 이해를 높이기 위해
    • 데이터가 가진 특성을 제공
    • 설명에 대한 답을 제공
분류 모델 예측 모델 군집화 모델 연관규칙 모델
로지스틱 회귀분석/판별분석
트리기반방법(CART 알고리즘)
최적화기법(서포트백터머신)
기계학습(역전파 알고리즘)
회귀분석
의사결정나무
시계열분석
인공신경망
응집/분할분석법
K-평균군집화
장바구니분석
  • 분류 모델(Classification Model)
    📌 로지스틱 회귀분석 / 판별 분석 / 트리기반(CART) / 서포트벡터머신 / 기계학습(인공신경망)
    • 로지스틱 회귀분석(LR)
      • 종속변수: 서열형, 범주형, 명목형
      • 분석 대상이 어느 집단으로 분류되는가
    • 서포트 벡터 머신(SVM)
      • 최적화 기법, 이진선형 분류방법
      • 데이터와 거리가 가장 먼 초평면 선택
      • 초평면(Hyperplane): 데이터 분리
      • 서포트벡터: 초평면에 가장 가까운점
    • 기계학습(인공신경망)
      • 기대 출력값과 실제 출력값의 비교 → 오차
      • 신경망의 은닉계층에서 가중치 조정
      • 가중치 갱신 반복 → 신경망 구조 안정화
    • 분류: 범주, 그룹을 예측하는 것(범주형 or 이산형 변수)
    • 트리기반: 의사결정규칙에 따라서 집단을 몇 개의 소집단으로 분류
    • CART알고리즘: 독립변수 이분화 반복 → 이진트리 형태 형성 → 분류 & 예측
    • 기계학습: 경험적인 데이터로부터 스스로 성능을 향상 → 인간의 학습과 같은 능력을 컴퓨터에서 실현하고자 함
    • 역전파 알고리즘(Backpropagation)
      • 출력값이 원하는 출력과 다를 때, 가중치 갱신으로 오차 최소화를 위한 반복 수행
      • 오차를 출력계층에서 입력계층으로 역방향으로 반영
  • 예측 모델(Prediction Model)
    📌 회귀분석 / 의사결정나무 / 시계열분석 / 인공신경망
    • 예측모델: 과거 데이터포부터 특성 분석 → 새로운(다른) 데이터의 결괏값을 예측
    • 회귀분석(Regression): 2개의 연속형 변수 사이의 모형 생성 → 적합도 측정
    • 의사결정나무(Decision Tree): 의사결정규칙을 트리구조로 도표화
      • 용도: 분류 및 예측 모형 & 변수모형 분석 전 이상값 검색
    • 시계열 분석(Time Series Analysis): 시계열로 관측되는 자료 분석 → 미래 예측
    • 인공신경망(ANN): 뉴런이 전기신호를 전달하는 모습을 모방한 예측모델
  • 군집화 모델(Clustering Model)
    📌 계층적(응집/분할), 비계층적(K-Means)
    • 계층적방법: 군집 수 지정 X → 단계적 군집결과 산출
      • 응집분석법(객체를 합침), 분할분석법(전체에서 분리)
    • 비 계층정방법: 군집 수 지정 O → 객체를 한 군집으로 배정
      • K-평균 군집화: K개 군집의 중심좌표를 업데이트
  • 연관규칙 모델
    📌 데이터에 숨어있으면서, 동시에 발생하는 사건, 항목 간 규칙을 수치화
    • 연관규칙 분석 = 연관규칙 학습 = 연관성 분석 = 장바구니 분석
    • 장바구니 분석: 상품 배열/카탈로그/교차판매 등에 적용
    • 항목들 간의(조건-결과)식으로 표현되는 유용한 패턴을 발견

(3) 머신러닝 기반 분석 모형 선정
📌 지도학습 / 비지도학습

  • 분석기법: 목적변수(반응변수) 존재 여부 등에 따라서 지도학습, 비지도학습, 강화학습, 준지도학습
지도학습 비지도학습
로지스틱 회귀
인공신경망 분석
의사결정나무
서포트벡터머신(SVM)
랜덤포레스트
감성분석
군집화
자원축소 기법
연관관계 분석
자율학습 인공신경망(자기조직화지도)
  • 지도학습(Supervised Learning)
    • 정답 레이블(Lable)이 포함된 데이터
    • 목적
      • 설명변수와 목적변수 간 관계성 표현
      • 인식, 분류, 진단, 예측 등의 문제해결
    • 랜덤포레스트(Random Forest): 의사결정나무의 분산이 크다는 단점 보안 → 약한 학습기들을 선형 결합
    • 감성분석(Sentiment Analysis): 어떤 주제에 대한 주관적인 인상, 감정, 태도, 의견들을 텍스트로부터 추출
  • 비지도 학습(Unsupervised Learning)
    • 정답 레이블이 없는 데이터
    • 목적
      • 예측보다 현상 설명, 특징 도출, 패턴 도출 문제
      • 사전정보가 없는 상태에서 유용한 정보와 패턴을 탐색적으로 발견하고자 함
    • 자기 조직화 지도(SOM)
      • 비지도 학습기반 클러스터링 기법
      • 자원축소화 군집화 동시 수행 → 고차원 데이터를 저차원으로 변환

(4) 변수에 따른 분석기법 선정

  • 변수의 개수에 따른 분석기법: 단일변수 / 이변수 / 다변수 분석
    • 단일변수 분석: 변수 1개 → 기술통계 확인
      • 연속형: 히스토그램, 박스플롯
      • 범주형: 막대그래프
    • 다변수 분석: 변수 3개 이상의 관계 → 시각화, 분석
      • 범주형 1개 이상 포함: 변수를 범주별로 쪼갬
      • 연속형 3개 이상 포함: 연속형을 범주형으로 변환
    • 이변수 분석: 변수 2개 관계 → 분석
  • 데이터 유형에 따른 분석기법
    • 독립변수 & 종속변수 주어진 경우: 주어진 독립변수에 대한 종속변수 값을 예측, 분류하는 분석 모델 개발


(5) 분석기법 선정시 고려사항

  • 목적, 데이터 해석가능 여부 / 단일 or 앙상블 선택


(6) 분석모형 활용사례

  • 연관규칙 학습(장바구니 분석)
    • 콜라를 구매하는 소비자가 사이다를 더 많이 구매하는가?
    • 피자를 주문한 고객은 어떤 음료를 많이 주문하는가?
  • 분류 분석
    • 문서 분류, 조직 그룹핑
    • 온라인 수강생들을 특성에 따라 분류
  • 유전자 알고리즘: 점진적 진화 → 최적화
    • 응급 처치 프로세스를 어떻게 배치하는 것이 가장 효율적인가?
  • 기계 학습: 알려진 특성을 훈련, 학습, 예측
    • 회원의 기존 시청기록을 바탕으로 어떤 영상을 가장 보고싶어 할지 예측
  • 회귀 분석: 변수간 인과관계
    • 차주의 나이가 차량 유형에 어떤 영향을 미치는가?
  • 감성 분석: 특정 주제에 대해 말한 서술한 사람의 감정을 분석
    • 새로운 제품, 서비스에 대한 소비자들의 평가는 어떠한가?
  • 소셜 네트워크 분석(SNA)
    • 특정인과 다른사람의 관계가 몇 초인가?
    • 영향력 있는 사람은 누구인가?
    • 고객들 간 관계망의 구성은 어떠한가?

댓글남기기