4 분 소요

키워드🔑
중심경향성, 산포도, 분포, 히스토그램, 막대형 그래프, 박스 플롯, 산점도,
시공간 데이터, 다변량 데이터, 비정형 데이터

02. 데이터 탐색

1. 데이터 탐색 기초

3) 기초통계량 추출 및 이해


(1) 기초통계량 구분
📌 중심 경향성 / 산포도 / 분포

중심 경향성 산포도 분포
평균
중위수
최빈값
범위
분산
표준편차
변동계수
사분위 수 범위
왜도
첨도


(2) 중심 경향성의 통계량
📌 평균 / 중위수 / 최빈값

  • 평균(Mean): (변수 값들의 합) / (변수 개수)
    • 이상값에 의한 변동 변화 심함
  • 중위수(Median): 크기 순서로 오름차순 정렬 → 중앙에 위치한 값
    • 변수 홀수 개: (n+1) / 2 번째
    • 변수 짝수 개: n/2 번째와 (n+2)/2 번째의 평균
  • 최빈값(Mode): 가장 많이 관측되는 값


(3) 산포도(흩어진 정도)의 통계량
📌 범위 / 분산 / 표준편차 / 변동계수 / 사분위 수 범위

  • 범위(Range): 최댓값(Max) - 최솟값(Min)
  • 분산(Variance): 평균으로부터 흩어진 정도
    • 편차들의 제곱 합
    • 모분산은 N으로, 표본분산은 (n-1)으로 나눔
  • 표준편차(Standard Deviation): 분산의 양의 제곱근
  • 변동계수(CV; Coefficient of Variation): 측정 단위가 다른 자료의 흩어진 정도를 상대적으로 비교함
    • (표준편차) / (표본평균)
    • 값이 클수록 상대적인 차이가 큼
    • 변동계수 = 상대 표준편차
  • 사분위 수 범위(IQR; InterQuartile Range): 자료들의 중간 50%에 포함되는 자료의 산포도
    • IQR = Q₃ - Q₁
    • Q₁ = 중위수를 기준으로 좌측의 중위수
    • Q₃ = 중위수를 기준으로 우측의 중위수


(4) 분포(치우친/뾰족한 정도)의 통계량
📌 왜도 / 첨도

  • 왜도(Skewness): 분포가 좌/우로 치우친 정도
    • 왼쪽 편포: 왜도 < 0 (Negative Skew) 왼쪽 꼬리가 긴 분포: Mean < Median < Mode
    • 오른쪽 편포: 왜도 > 0 (Positive Skew) 오른쪽 꼬리가 긴 분포: Mode < Median < Mean
    • 정규 분포: 왜도 = 0 평균 중심으로 대칭인 분포: Mode = Mean = Median
  • 첨도(Kurtosis): 정규분포곡선으로부터 위/아래로 뾰족한 정도
    • 첨도 < 0: 납작
    • 첨도 > 0: 뾰족
    • 첨도 = 0: 정규분포

4) 시각적 데이터 탐색


(1) 시각화 도구
📌 히스토그램 / 막대형 그래프 / 박스 플롯 / 산점도


(2) 히스토그램(Histogram)
📌 자료 분포 형태를 직사각형 형태로 시각화

  • 가로축: 수치형 데이터
  • 막대: 붙어 있음 / 넓이 일정 O


(3) 막대형 그래프(Barplot)
📌 여러 항목들의 많고 적음을 비교함

  • 항목별 수향을 막대 길이로 표현
  • 가로축: 수치형 데이터 아니어도 됨
  • 막대: 떨어져 있음 / 넓이 일정 X


(4) 박스 플롯(Boxplot)
📌 집합의 범위/중앙값/이상값을 빠르게 확인할 수 있는 시각화 기법

  • 박스 플롯 = 상자 그림 = 상자 수염 그림
  • Q1 = 제 1사분위 = 중앙값 기준으로 하위 50% 중에서 중앙값 = 전체 데이터 중 하위 25%에 해당하는 값
    Q2 = 제 2사분위 = 중위수 = 정 가운데 순위에 해당하는 값
    Q3 = 제 3사분위 = 중앙값 기준으로 상위 50% 중에서 중앙값 = 전제 데이터 중 상위 25%에 해당하는 값
  • 하위 경계 = Q₁ - 1.5 ⨉ IQR
  • 상위 경계 = Q₃ + 1.5 ⨉ IQR
  • 이상값 = 수염보다 바깥쪽에 있는 데이터


(5) 산점도(Scatter Plot)
📌 좌표평면 상에 각 관찰점을 표시하는 시각화 기법

  • 2개의 연속형 변수 간의 관계를 볼 수 있음

2. 고급 데이터 탐색

1) 시공간 데이터 탐색


(1) 시공간 데이터(Spatio-Temporal Data)

  • 시공간 데이터 개념
    • 공간적 객체에 시간적 개념이 추가되어 시간에 따라, 위치나 형상이 변하는 데이터
  • 시공간 데이터 특징: 거리속성 / 시간속성
    • 이산적 변화: 수집 주기 일정 X → 시간 변화에 따라 데이터 추가됨
    • 연속적 변화: 수집 주기 일정 O → 함수로 연속적인 변화를 표현함
  • 시공간 데이터 타입
    • 포인트: 하나의 노드
    • 라인: 두개의 노드 + 하나의 세그먼트
    • 폴리곤: n개의 노드 + n개의 세그먼트
    • 폴리라인: n개의 노드 + n-1개의 세그먼트


(2) 시공간 데이터 탐색 절차

  • 주소를 행정구역으로 변환: 문자열 처리함수로 변환(split, find, left, mid)
    • split(문자열, 구분자): 공백/쉼표 등을 기준으로 나눔
    • find(찾는 문자, 문자열): 찾는 문자의 인덱스 반환
    • left(문자열, n): 가장 왼쪽부터 n개의 문자열 반환
    • mid(문자열, 시작위치, n): 문자열의 시작위치부터 n개 만큼 문자열 반환
  • 주소를 좌표계로 반환: 위도, 경도로 반환(지오코딩 서비스)
  • 행정구역, 좌표계를 지도에 표시: 코로플레스 지도 / 카토그램 / 버블플롯맵
코로플레스 지도 (Choropleth Map) 카토그램 (Cartogram) 버블플롯맵 (Bubble Plot Map)
- 등치지역도
- 데이터값 크기에 따라 영역 색칠
- 지역 면적 ≠ 실제 데이터 값 크기
- 변량비례도
- 데이터 값 크기에 따라 면적 왜곡
- 직관적으로 인지 가능
- 위도, 경도 적용
- 좌표를 원으로
- 원 크기, 색깔 반영

2) 다변량 데이터 탐색


(1) 다변량 데이터

  • 변량(Variance): 조사대상의 특징/성질을 숫자 or 문자로 나타낸 값
  • 유형: 종속변수(Y) 수에 따라 → 일변량/이변량/다변량 데이터
    • 일변량: 각 단위에 대해 1개의 속성만 측정
    • 이변량: 2개의 특성을 측정
    • 다변량: 2개 이상의 특성을 측정


(2) 변량 데이터 탐색

  • 일변량 데이터 탐색 방법
    • 기술 통계량: 평균/분산/표준편차 등
    • 그래프 통계량: 히스토그램/상자그림 등
  • 이변량 데이터 탐색 방법: 동시 관측 → 변수간 관계 밝히기
  • 다변량 데이터 탐색 방법: 분석 전에 시작적으로 탐색 → 산점도 행렬, 별 그림, 등고선 그림 등


(3) 다변량 데이터 탐색 도구
📌 산점도 행렬 / 별 그림

  • 산점도 행렬: 두 변수간 산점도를 행렬로 → 변수간 연관성 표현
    • 그림 행렬: 변수 최대 20개 / 가능한 모든 조합
    • 개별 Y대 개별 X행렬: 각 xy조합의 그래프들
  • 별 그림
    • 점: 각 변수에 대응
    • 반경: 각 변숫값에 비례

3) 비정형 데이터 탐색


(1) 비정형 데이터(Unstructured Data)
📌 구조화 되지 않은 데이터 (이미지/영상/텍스트)


(2) 비정형 데이터의 유형 및 탐색방법

  • 비정형 데이터
    • 텍스트: 정형 데이터로 변환 → 단어 빈도
      • 탐색방법: 파싱(Parsing) 후 탐색
    • 이미지: 픽셀마다 수치화 → CNN 등의 딥러닝 기법
      • 탐색방법: 응용소프트웨어 활용
  • 반정형 데이터: XML/JSON/HTML
    • 탐색방법: 각 파서를 이용하여 파싱 후 탐색


(3) 비정형 데이터 탐색 플랫폼
📌 HDFS / 맵리듀스 / 주키퍼 / Avro / Hive / Pig / HCatalog


댓글남기기