[빅데이터분석기사 필기] Ⅱ.빅데이터 탐색 - 02. 데이터 탐색(2)
키워드🔑
중심경향성, 산포도, 분포, 히스토그램, 막대형 그래프, 박스 플롯, 산점도,
시공간 데이터, 다변량 데이터, 비정형 데이터
02. 데이터 탐색
1. 데이터 탐색 기초
3) 기초통계량 추출 및 이해
(1) 기초통계량 구분
📌 중심 경향성 / 산포도 / 분포
중심 경향성 | 산포도 | 분포 |
---|---|---|
평균 중위수 최빈값 |
범위 분산 표준편차 변동계수 사분위 수 범위 |
왜도 첨도 |
(2) 중심 경향성의 통계량
📌 평균 / 중위수 / 최빈값
- 평균(Mean): (변수 값들의 합) / (변수 개수)
- 이상값에 의한 변동 변화 심함
- 중위수(Median): 크기 순서로 오름차순 정렬 → 중앙에 위치한 값
- 변수 홀수 개: (n+1) / 2 번째
- 변수 짝수 개: n/2 번째와 (n+2)/2 번째의 평균
- 최빈값(Mode): 가장 많이 관측되는 값
(3) 산포도(흩어진 정도)의 통계량
📌 범위 / 분산 / 표준편차 / 변동계수 / 사분위 수 범위
- 범위(Range): 최댓값(Max) - 최솟값(Min)
- 분산(Variance): 평균으로부터 흩어진 정도
- 편차들의 제곱 합
- 모분산은 N으로, 표본분산은 (n-1)으로 나눔
- 표준편차(Standard Deviation): 분산의 양의 제곱근
- 변동계수(CV; Coefficient of Variation): 측정 단위가 다른 자료의 흩어진 정도를 상대적으로 비교함
- (표준편차) / (표본평균)
- 값이 클수록 상대적인 차이가 큼
- 변동계수 = 상대 표준편차
- 사분위 수 범위(IQR; InterQuartile Range): 자료들의 중간 50%에 포함되는 자료의 산포도
- IQR = Q₃ - Q₁
- Q₁ = 중위수를 기준으로 좌측의 중위수
- Q₃ = 중위수를 기준으로 우측의 중위수
(4) 분포(치우친/뾰족한 정도)의 통계량
📌 왜도 / 첨도
- 왜도(Skewness): 분포가 좌/우로 치우친 정도
- 왼쪽 편포: 왜도 < 0 (Negative Skew) 왼쪽 꼬리가 긴 분포: Mean < Median < Mode
- 오른쪽 편포: 왜도 > 0 (Positive Skew) 오른쪽 꼬리가 긴 분포: Mode < Median < Mean
- 정규 분포: 왜도 = 0 평균 중심으로 대칭인 분포: Mode = Mean = Median
- 첨도(Kurtosis): 정규분포곡선으로부터 위/아래로 뾰족한 정도
- 첨도 < 0: 납작
- 첨도 > 0: 뾰족
- 첨도 = 0: 정규분포
4) 시각적 데이터 탐색
(1) 시각화 도구
📌 히스토그램 / 막대형 그래프 / 박스 플롯 / 산점도
(2) 히스토그램(Histogram)
📌 자료 분포 형태를 직사각형 형태로 시각화
- 가로축: 수치형 데이터
- 막대: 붙어 있음 / 넓이 일정 O
(3) 막대형 그래프(Barplot)
📌 여러 항목들의 많고 적음을 비교함
- 항목별 수향을 막대 길이로 표현
- 가로축: 수치형 데이터 아니어도 됨
- 막대: 떨어져 있음 / 넓이 일정 X
(4) 박스 플롯(Boxplot)
📌 집합의 범위/중앙값/이상값을 빠르게 확인할 수 있는 시각화 기법
- 박스 플롯 = 상자 그림 = 상자 수염 그림
- Q1 = 제 1사분위 = 중앙값 기준으로 하위 50% 중에서 중앙값 = 전체 데이터 중 하위 25%에 해당하는 값
Q2 = 제 2사분위 = 중위수 = 정 가운데 순위에 해당하는 값
Q3 = 제 3사분위 = 중앙값 기준으로 상위 50% 중에서 중앙값 = 전제 데이터 중 상위 25%에 해당하는 값 - 하위 경계 = Q₁ - 1.5 ⨉ IQR
- 상위 경계 = Q₃ + 1.5 ⨉ IQR
- 이상값 = 수염보다 바깥쪽에 있는 데이터
(5) 산점도(Scatter Plot)
📌 좌표평면 상에 각 관찰점을 표시하는 시각화 기법
- 2개의 연속형 변수 간의 관계를 볼 수 있음
2. 고급 데이터 탐색
1) 시공간 데이터 탐색
(1) 시공간 데이터(Spatio-Temporal Data)
- 시공간 데이터 개념
- 공간적 객체에 시간적 개념이 추가되어 시간에 따라, 위치나 형상이 변하는 데이터
- 시공간 데이터 특징: 거리속성 / 시간속성
- 이산적 변화: 수집 주기 일정 X → 시간 변화에 따라 데이터 추가됨
- 연속적 변화: 수집 주기 일정 O → 함수로 연속적인 변화를 표현함
- 시공간 데이터 타입
- 포인트: 하나의 노드
- 라인: 두개의 노드 + 하나의 세그먼트
- 폴리곤: n개의 노드 + n개의 세그먼트
- 폴리라인: n개의 노드 + n-1개의 세그먼트
(2) 시공간 데이터 탐색 절차
- 주소를 행정구역으로 변환: 문자열 처리함수로 변환(split, find, left, mid)
- split(문자열, 구분자): 공백/쉼표 등을 기준으로 나눔
- find(찾는 문자, 문자열): 찾는 문자의 인덱스 반환
- left(문자열, n): 가장 왼쪽부터 n개의 문자열 반환
- mid(문자열, 시작위치, n): 문자열의 시작위치부터 n개 만큼 문자열 반환
- 주소를 좌표계로 반환: 위도, 경도로 반환(지오코딩 서비스)
- 행정구역, 좌표계를 지도에 표시: 코로플레스 지도 / 카토그램 / 버블플롯맵
코로플레스 지도 (Choropleth Map) | 카토그램 (Cartogram) | 버블플롯맵 (Bubble Plot Map) |
---|---|---|
- 등치지역도 - 데이터값 크기에 따라 영역 색칠 - 지역 면적 ≠ 실제 데이터 값 크기 |
- 변량비례도 - 데이터 값 크기에 따라 면적 왜곡 - 직관적으로 인지 가능 |
- 위도, 경도 적용 - 좌표를 원으로 - 원 크기, 색깔 반영 |
2) 다변량 데이터 탐색
(1) 다변량 데이터
- 변량(Variance): 조사대상의 특징/성질을 숫자 or 문자로 나타낸 값
- 유형: 종속변수(Y) 수에 따라 → 일변량/이변량/다변량 데이터
- 일변량: 각 단위에 대해 1개의 속성만 측정
- 이변량: 2개의 특성을 측정
- 다변량: 2개 이상의 특성을 측정
(2) 변량 데이터 탐색
- 일변량 데이터 탐색 방법
- 기술 통계량: 평균/분산/표준편차 등
- 그래프 통계량: 히스토그램/상자그림 등
- 이변량 데이터 탐색 방법: 동시 관측 → 변수간 관계 밝히기
- 다변량 데이터 탐색 방법: 분석 전에 시작적으로 탐색 → 산점도 행렬, 별 그림, 등고선 그림 등
(3) 다변량 데이터 탐색 도구
📌 산점도 행렬 / 별 그림
- 산점도 행렬: 두 변수간 산점도를 행렬로 → 변수간 연관성 표현
- 그림 행렬: 변수 최대 20개 / 가능한 모든 조합
- 개별 Y대 개별 X행렬: 각 xy조합의 그래프들
- 별 그림
- 점: 각 변수에 대응
- 반경: 각 변숫값에 비례
3) 비정형 데이터 탐색
(1) 비정형 데이터(Unstructured Data)
📌 구조화 되지 않은 데이터 (이미지/영상/텍스트)
(2) 비정형 데이터의 유형 및 탐색방법
- 비정형 데이터
- 텍스트: 정형 데이터로 변환 → 단어 빈도
- 탐색방법: 파싱(Parsing) 후 탐색
- 이미지: 픽셀마다 수치화 → CNN 등의 딥러닝 기법
- 탐색방법: 응용소프트웨어 활용
- 텍스트: 정형 데이터로 변환 → 단어 빈도
- 반정형 데이터: XML/JSON/HTML
- 탐색방법: 각 파서를 이용하여 파싱 후 탐색
(3) 비정형 데이터 탐색 플랫폼
📌 HDFS / 맵리듀스 / 주키퍼 / Avro / Hive / Pig / HCatalog
댓글남기기