2 분 소요

키워드🔑
데이터 탐색, EDA, Four R’s, 저항성, 잔차해석, 자료재표현, 현시성,
상관관계 분석, 산점도, 공분산(경향), 상관계수(방향+강도)

02. 데이터 탐색

1. 데이터 탐색 기초

1) 데이터 탐색 개요


(1) 데이터 탐색의 개념

  • 데이터 탐색
    • 데이터 분석전 그래프나 통계적인 방법으로 다양한 각도에서 데이터 특징을 파악하고 직관적으로 보는 분석방법
  • 데이터 탐색 도구: 도표 / 그래프 / 요약통계


(2) 탐색적 데이터 분석(EDA; Exploratory Data Analysis)의 4가지 주제
📌 저항성 / 잔차해석 / 자료재표현 / 현시성

  • Four R’s: Resistance / Residuals / Re-expression / Representaion
  • 저항성: 부분적 변동에 민감하지 않음
    • 오류점, 이상값의 영향을 적게 받음
    • ex) 평균보다 저항성이 큰 중위수를 대푯값으로 선호함
  • 잔차 해석: 주 경향에서 벗어난 특징 파악
    • 잔차: 관찰 값들이 주 경향으로부터 벗어난 정도
    • 보통과 다른 특징, 왜 존재하는지 탐색
  • 자료 재표현: 원래 변수를 적당한 척도로 바꾸는 것
    • 데이터 분석 및 해석을 단순화
    • 로그, 제곱근, 역수 변환
    • 데이터 구조파악에 도움(분포의 대칭성, 선형성, 안정성 등)
  • 현시성: 분석 결과를 쉽게 이해할 수 있도록 시각화
    • 현시성 = 데이터 시각화, Display, Visualization
    • 숨어있는 정보 시각화 → 자료 구조를 효율적으로 파악


(3) 개별 변수 탐색 방법
📌 개별 데이터

  • 범주형(질적) 데이터: 명목척도 / 순위척도
    • 분포 특성을 중심성, 변동성 측면에서 파악
    • 빈도수, 최빈값, 비율, 백분율 등
    • 막대 그래프 활용
  • 수치형(양적)데이터: 등간척도, 비율척도
    • 분포 특성을 중심성, 변동성, 정규성 측면에서 파악
    • 평균, 분산, 표준편차, 첨도, 왜도 등
    • 박스플롯, 히스토그램 활용


(4) 다차원 데이터 탐색 방법
📌 데이터의 조합

  • 범주-범주: 연관성을 분석
    • 빈도수, 비율 활용 → 교차빈도, 비율, 백분율 분석 등
    • 막대 그래프
  • 수치-수치: 상관성, 추세성을 분석
    • 산점도, 기울기 활용
    • 공분산: 방향성 파악
    • 피어슨 상관계수: 방향, 강도 파악
  • 범주-수치: 그룹간 비교
    • 각 그룹별 수치형 변수의 기술통계량을 비교
    • 박스 플롯

1) 데이터 탐색 개요


(1) 상관관계 분석의 개념

  • 상관관계 분석(Correlation Analysis)
    • 2개 이상의 변수 사이의
    • 상호연관성의 존재 여부와
    • 연관성의 강도를 측정하는 분석 방법


(2) 변수 사이의 상관관계 종류

  • 양의 상관관계 (+): 한 변수↑ 다른 변수↑
  • 음의 상관관계 (-): 한 변수↑ 다른 변수↓
  • 상관관계 없음 (0): 무관하게 변화


(3) 상관관계의 표현방법
📌 산점도, 공분산(경향), 상관계수(방향+강도)

  • 산점도(Scatter Plot)
  • 공분산(Covariance): 2개 변수간 상관 정도 / 경향
    • 0보다 큰가 작은가
    • Cov > 0: 상승 경향
    • Cov < 0: 하강 경향
    • 단위에 따라 값의 크기가 달라짐 → 강도 나타낼 수 없음
  • 상관계수(Correlation Coefficient): 2개 변수간 방향성 / 강도
    • 범위: -1 ≤ r ≤ 1
    • 1에 가까울수록 강한 양의 상관관계 / -1에 가까울수록 강한 음의 상관관계


(4) 상관관계 분석의 종류

  • 변수의 개수에 따라 → 단순 상관 분석 / 다중 상관 분석
    • 단순 상관 분석: 2개 변수 사이의 상관성
    • 다중 상관 분석: 3개 이상 변수 사이의 상관성
  • 변수의 속성에 따라 → 수치적 / 명목적 / 순서적 데이터
    • 수치적 데이터: 피어슨 상관계수
      • 전제조건: 두 변수의 분산이 동일하다
      • ex) 키와 몸무게, 수입과 지출
    • 명목적 데이터: 카이제곱 검정(교차분석)
      • 분류의 의미만 가지므로, 상관계수 계산은 의미없다
      • ex) 지역, 종교, 성별
    • 순서적 데이터: 스피어만 순위상관계수
      • 한 변수를 단조 증가함수로 변환하여 다른 변수를 나타낼 수 있는 정도
      • 두 변수간의 비선형적인 관계도 나타낼 수 있음
      • ex) 성적 순위, 만족도

댓글남기기