[빅데이터분석기사 필기] Ⅱ.빅데이터 탐색 - 02. 데이터 탐색(1)
키워드🔑
데이터 탐색, EDA, Four R’s, 저항성, 잔차해석, 자료재표현, 현시성,
상관관계 분석, 산점도, 공분산(경향), 상관계수(방향+강도)
02. 데이터 탐색
1. 데이터 탐색 기초
1) 데이터 탐색 개요
(1) 데이터 탐색의 개념
- 데이터 탐색
- 데이터 분석전 그래프나 통계적인 방법으로 다양한 각도에서 데이터 특징을 파악하고 직관적으로 보는 분석방법
- 데이터 탐색 도구: 도표 / 그래프 / 요약통계
(2) 탐색적 데이터 분석(EDA; Exploratory Data Analysis)의 4가지 주제
📌 저항성 / 잔차해석 / 자료재표현 / 현시성
- Four R’s: Resistance / Residuals / Re-expression / Representaion
- 저항성: 부분적 변동에 민감하지 않음
- 오류점, 이상값의 영향을 적게 받음
- ex) 평균보다 저항성이 큰 중위수를 대푯값으로 선호함
- 잔차 해석: 주 경향에서 벗어난 특징 파악
- 잔차: 관찰 값들이 주 경향으로부터 벗어난 정도
- 보통과 다른 특징, 왜 존재하는지 탐색
- 자료 재표현: 원래 변수를 적당한 척도로 바꾸는 것
- 데이터 분석 및 해석을 단순화
- 로그, 제곱근, 역수 변환
- 데이터 구조파악에 도움(분포의 대칭성, 선형성, 안정성 등)
- 현시성: 분석 결과를 쉽게 이해할 수 있도록 시각화
- 현시성 = 데이터 시각화, Display, Visualization
- 숨어있는 정보 시각화 → 자료 구조를 효율적으로 파악
(3) 개별 변수 탐색 방법
📌 개별 데이터
- 범주형(질적) 데이터: 명목척도 / 순위척도
- 분포 특성을 중심성, 변동성 측면에서 파악
- 빈도수, 최빈값, 비율, 백분율 등
- 막대 그래프 활용
- 수치형(양적)데이터: 등간척도, 비율척도
- 분포 특성을 중심성, 변동성, 정규성 측면에서 파악
- 평균, 분산, 표준편차, 첨도, 왜도 등
- 박스플롯, 히스토그램 활용
(4) 다차원 데이터 탐색 방법
📌 데이터의 조합
- 범주-범주: 연관성을 분석
- 빈도수, 비율 활용 → 교차빈도, 비율, 백분율 분석 등
- 막대 그래프
- 수치-수치: 상관성, 추세성을 분석
- 산점도, 기울기 활용
- 공분산: 방향성 파악
- 피어슨 상관계수: 방향, 강도 파악
- 범주-수치: 그룹간 비교
- 각 그룹별 수치형 변수의 기술통계량을 비교
- 박스 플롯
1) 데이터 탐색 개요
(1) 상관관계 분석의 개념
- 상관관계 분석(Correlation Analysis)
- 2개 이상의 변수 사이의
- 상호연관성의 존재 여부와
- 연관성의 강도를 측정하는 분석 방법
(2) 변수 사이의 상관관계 종류
- 양의 상관관계 (+): 한 변수↑ 다른 변수↑
- 음의 상관관계 (-): 한 변수↑ 다른 변수↓
- 상관관계 없음 (0): 무관하게 변화
(3) 상관관계의 표현방법
📌 산점도, 공분산(경향), 상관계수(방향+강도)
- 산점도(Scatter Plot)
- 공분산(Covariance): 2개 변수간 상관 정도 / 경향
- 0보다 큰가 작은가
- Cov > 0: 상승 경향
- Cov < 0: 하강 경향
- 단위에 따라 값의 크기가 달라짐 → 강도 나타낼 수 없음
- 상관계수(Correlation Coefficient): 2개 변수간 방향성 / 강도
- 범위: -1 ≤ r ≤ 1
- 1에 가까울수록 강한 양의 상관관계 / -1에 가까울수록 강한 음의 상관관계
(4) 상관관계 분석의 종류
- 변수의 개수에 따라 → 단순 상관 분석 / 다중 상관 분석
- 단순 상관 분석: 2개 변수 사이의 상관성
- 다중 상관 분석: 3개 이상 변수 사이의 상관성
- 변수의 속성에 따라 → 수치적 / 명목적 / 순서적 데이터
- 수치적 데이터: 피어슨 상관계수
- 전제조건: 두 변수의 분산이 동일하다
- ex) 키와 몸무게, 수입과 지출
- 명목적 데이터: 카이제곱 검정(교차분석)
- 분류의 의미만 가지므로, 상관계수 계산은 의미없다
- ex) 지역, 종교, 성별
- 순서적 데이터: 스피어만 순위상관계수
- 한 변수를 단조 증가함수로 변환하여 다른 변수를 나타낼 수 있는 정도
- 두 변수간의 비선형적인 관계도 나타낼 수 있음
- ex) 성적 순위, 만족도
- 수치적 데이터: 피어슨 상관계수
댓글남기기