[빅데이터분석기사 필기] Ⅲ.빅데이터 모델링 - 01. 분석 모형 설계(1)
키워드🔑
분석모형, 통계기반, 기술통계, 상관분석, 회귀분석, 분산분석, 주성분분석, 판별분석,
데이터마이닝, 분류, 예측, 군집화, 연관규칙, 머신러닝, 지도학습, 비지도학습
01. 분석모형 설계
1. 분석 절차 수립
1) 분석 모형 선정
- 분석 목적 부함 & 데이터 변수 고려 → 분석 모형 선정
- 모형(모델): 객체, 시스템, 개념에 대한 구조나 작업을 보여주기 위한 패턴, 계획, 설명
- 탐색적 데이터 분석(EDA): 현상에서 패턴 발견
- 통계적 추론: 현상에서 결론 도출
- 기계학습: 현상을 예측
통계 기반 | 데이터마이닝 기반 | 머신러닝 기반 |
---|---|---|
기술통계 상관분석 회귀분석 분산분석 주성분분석 판별분석 |
<분류> 통계적기법-로지스틱회귀, 판별분석 트리기반기법-CART알고리즘 최적화기법-서포트벡터머신 기계학습-역전파알고리즘 <예측> 회귀분석 의사결정나무 시계열분석 인공신경망 군집화-계층적/비계층적 연관규칙 모델(장바구니분석)예측>분류> |
<지도학습> 로지스틱회귀 인공신경망 의사결정나무 서포트벡터머신 랜덤포레스트 감성분석 <비지도학습> 군집화 차원축소기법 연관관계분석 인공신경망(자가조직화지도)비지도학습>지도학습> |
(1) 통계기반 분석 모형 선정
📌 기술통계 / 상관분석 / 회귀분석 / 분산분석 / 주성분분석 / 판별분석
- 통계분석
- 불확실한 상황에서
- 객관적인 의사결정을 수행하기 위해
- 데이터를 수집, 처리, 분류, 분석, 해석하는 일련의 체계
- 기술통계(Descriptive Statistics): 분석 초기에 데이터를 확률/통계적으로 정리/요약하는 기초적인 통계
- 통계적 수치: 평균, 분산, 표준편차, 왜도, 첨도, 빈도 등
- 그래프 활용: 막대그래프/파이그래프 등
- 상관분석(Correlation Analysis): 2개 이상의 변수간 상호연관성의 정도를 측정
- 단순 상관분석: 2개 변수 사이의 연관관계
- 다중 상관분석: 3개 이상의 변수 사의의 연관관계
- 변수간 상관분석: 수치적, 명목적, 순서적 데이터 변수간 분석
- 회귀분석(Regression Analysis): 1개 이상의 독립변수가 종속변수에 미치는 영향을 추정
- 단순 회귀: 독립변수 1개 / 직선관계
- 다중 회귀: 독립변수 2개 이상 / 선형 관계
- 다항 회귀: (독립변수 1개/2차함수이상) or (독립변수 2개/1차함수 이상)
- 곡선 회귀: 독립변수 1개 / 곡선관계
- 로지스틱 회귀: 종속변수 범주형(단순/다중/다항)
- 비선형 회귀: 선형관계X
- 분산분석(ANOVA): 2개 이상의 집단간 비교 (분산비교)
- 일원 분산분석: 독립변수 1개 / 종속변수 1개
- 이원 분산분석: 독립변수 2개 / 종속변수 1개
- 다변량 분산분석: 종속변수 2개 이상
- 주성분분석(PCA): 주성분 변수를 원래 변수들의 선형결합으로 추출하는 통계기법
- 일분 주성분에 의해 원래 변수의 변동이 충분히 설명되는가
- 판별분석(Discriminant Analysis): 집단을 구별할 수 있는 판별규칙/함수 → 새로운 개체가 어떤 집단인지 탐색
(2) 데이터마이닝 기반 분석 모형 선정
📌 분류 / 예측 / 군집화 / 연관규칙
- 데이터마이닝(Data Mining)
- 대용량 데이터로부터
- 데이터 내의 패턴, 관계, 규칙 등을 탐색하고,
- 통계적인 기법으로 모델화하여,
- 유용한 정보, 지식을 추출
- 기술(Description)
- 사람, 상품에 대한 이해를 높이기 위해
- 데이터가 가진 특성을 제공
- 설명에 대한 답을 제공
분류 모델 | 예측 모델 | 군집화 모델 | 연관규칙 모델 |
---|---|---|---|
로지스틱 회귀분석/판별분석 트리기반방법(CART 알고리즘) 최적화기법(서포트백터머신) 기계학습(역전파 알고리즘) |
회귀분석 의사결정나무 시계열분석 인공신경망 |
응집/분할분석법 K-평균군집화 |
장바구니분석 |
- 분류 모델(Classification Model)
📌 로지스틱 회귀분석 / 판별 분석 / 트리기반(CART) / 서포트벡터머신 / 기계학습(인공신경망)- 로지스틱 회귀분석(LR)
- 종속변수: 서열형, 범주형, 명목형
- 분석 대상이 어느 집단으로 분류되는가
- 서포트 벡터 머신(SVM)
- 최적화 기법, 이진선형 분류방법
- 데이터와 거리가 가장 먼 초평면 선택
- 초평면(Hyperplane): 데이터 분리
- 서포트벡터: 초평면에 가장 가까운점
- 기계학습(인공신경망)
- 기대 출력값과 실제 출력값의 비교 → 오차
- 신경망의 은닉계층에서 가중치 조정
- 가중치 갱신 반복 → 신경망 구조 안정화
- 분류: 범주, 그룹을 예측하는 것(범주형 or 이산형 변수)
- 트리기반: 의사결정규칙에 따라서 집단을 몇 개의 소집단으로 분류
- CART알고리즘: 독립변수 이분화 반복 → 이진트리 형태 형성 → 분류 & 예측
- 기계학습: 경험적인 데이터로부터 스스로 성능을 향상 → 인간의 학습과 같은 능력을 컴퓨터에서 실현하고자 함
- 역전파 알고리즘(Backpropagation)
- 출력값이 원하는 출력과 다를 때, 가중치 갱신으로 오차 최소화를 위한 반복 수행
- 오차를 출력계층에서 입력계층으로 역방향으로 반영
- 로지스틱 회귀분석(LR)
- 예측 모델(Prediction Model)
📌 회귀분석 / 의사결정나무 / 시계열분석 / 인공신경망- 예측모델: 과거 데이터포부터 특성 분석 → 새로운(다른) 데이터의 결괏값을 예측
- 회귀분석(Regression): 2개의 연속형 변수 사이의 모형 생성 → 적합도 측정
- 의사결정나무(Decision Tree): 의사결정규칙을 트리구조로 도표화
- 용도: 분류 및 예측 모형 & 변수모형 분석 전 이상값 검색
- 시계열 분석(Time Series Analysis): 시계열로 관측되는 자료 분석 → 미래 예측
- 인공신경망(ANN): 뉴런이 전기신호를 전달하는 모습을 모방한 예측모델
- 군집화 모델(Clustering Model)
📌 계층적(응집/분할), 비계층적(K-Means)- 계층적방법: 군집 수 지정 X → 단계적 군집결과 산출
- 응집분석법(객체를 합침), 분할분석법(전체에서 분리)
- 비 계층정방법: 군집 수 지정 O → 객체를 한 군집으로 배정
- K-평균 군집화: K개 군집의 중심좌표를 업데이트
- 계층적방법: 군집 수 지정 X → 단계적 군집결과 산출
- 연관규칙 모델
📌 데이터에 숨어있으면서, 동시에 발생하는 사건, 항목 간 규칙을 수치화- 연관규칙 분석 = 연관규칙 학습 = 연관성 분석 = 장바구니 분석
- 장바구니 분석: 상품 배열/카탈로그/교차판매 등에 적용
- 항목들 간의(조건-결과)식으로 표현되는 유용한 패턴을 발견
(3) 머신러닝 기반 분석 모형 선정
📌 지도학습 / 비지도학습
- 분석기법: 목적변수(반응변수) 존재 여부 등에 따라서 지도학습, 비지도학습, 강화학습, 준지도학습
지도학습 | 비지도학습 |
---|---|
로지스틱 회귀 인공신경망 분석 의사결정나무 서포트벡터머신(SVM) 랜덤포레스트 감성분석 |
군집화 자원축소 기법 연관관계 분석 자율학습 인공신경망(자기조직화지도) |
- 지도학습(Supervised Learning)
- 정답 레이블(Lable)이 포함된 데이터
- 목적
- 설명변수와 목적변수 간 관계성 표현
- 인식, 분류, 진단, 예측 등의 문제해결
- 랜덤포레스트(Random Forest): 의사결정나무의 분산이 크다는 단점 보안 → 약한 학습기들을 선형 결합
- 감성분석(Sentiment Analysis): 어떤 주제에 대한 주관적인 인상, 감정, 태도, 의견들을 텍스트로부터 추출
- 비지도 학습(Unsupervised Learning)
- 정답 레이블이 없는 데이터
- 목적
- 예측보다 현상 설명, 특징 도출, 패턴 도출 문제
- 사전정보가 없는 상태에서 유용한 정보와 패턴을 탐색적으로 발견하고자 함
- 자기 조직화 지도(SOM)
- 비지도 학습기반 클러스터링 기법
- 자원축소화 군집화 동시 수행 → 고차원 데이터를 저차원으로 변환
(4) 변수에 따른 분석기법 선정
- 변수의 개수에 따른 분석기법: 단일변수 / 이변수 / 다변수 분석
- 단일변수 분석: 변수 1개 → 기술통계 확인
- 연속형: 히스토그램, 박스플롯
- 범주형: 막대그래프
- 다변수 분석: 변수 3개 이상의 관계 → 시각화, 분석
- 범주형 1개 이상 포함: 변수를 범주별로 쪼갬
- 연속형 3개 이상 포함: 연속형을 범주형으로 변환
- 이변수 분석: 변수 2개 관계 → 분석
- 단일변수 분석: 변수 1개 → 기술통계 확인
- 데이터 유형에 따른 분석기법
- 독립변수 & 종속변수 주어진 경우: 주어진 독립변수에 대한 종속변수 값을 예측, 분류하는 분석 모델 개발
(5) 분석기법 선정시 고려사항
- 목적, 데이터 해석가능 여부 / 단일 or 앙상블 선택
(6) 분석모형 활용사례
- 연관규칙 학습(장바구니 분석)
- 콜라를 구매하는 소비자가 사이다를 더 많이 구매하는가?
- 피자를 주문한 고객은 어떤 음료를 많이 주문하는가?
- 분류 분석
- 문서 분류, 조직 그룹핑
- 온라인 수강생들을 특성에 따라 분류
- 유전자 알고리즘: 점진적 진화 → 최적화
- 응급 처치 프로세스를 어떻게 배치하는 것이 가장 효율적인가?
- 기계 학습: 알려진 특성을 훈련, 학습, 예측
- 회원의 기존 시청기록을 바탕으로 어떤 영상을 가장 보고싶어 할지 예측
- 회귀 분석: 변수간 인과관계
- 차주의 나이가 차량 유형에 어떤 영향을 미치는가?
- 감성 분석: 특정 주제에 대해 말한 서술한 사람의 감정을 분석
- 새로운 제품, 서비스에 대한 소비자들의 평가는 어떠한가?
- 소셜 네트워크 분석(SNA)
- 특정인과 다른사람의 관계가 몇 초인가?
- 영향력 있는 사람은 누구인가?
- 고객들 간 관계망의 구성은 어떠한가?
댓글남기기