[빅데이터분석기사 필기] Ⅰ.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획(2)
키워드🔑
데이터 속성, 데이터 측정 척도, 명목척도, 순서척도, 등간척도, 비율척도, 데이터 변환, 평활화, 집계, 일반화, 정규화
03. 데이터 수집 및 저장 계획
1. 데이터 수집 및 전환
2) 데이터 유형 및 속성 파악
(1) 데이터 유형
📌 구조, 시간, 저장 형태 관점에 따라 분류함
- 구조 관점: 정형, 비정형, 반정형
📌 스키마 구조 또는 연산 가능 여부에 따라 분류한다- 정형 데이터: 스키마(형태) 구조 기반 형태, 고정된 필드에 저장, 일관성 O, 컬럼/로우 구조
- 관계형 데이터베이스(RDB), 스트레드시트(SpreadSheet), ERP, CRM, SCM
- 반정형 데이터: 스키마 구조 형태 가짐, 메타데엍 포함, 일관성 X
- XML, HTML, 웹로그, 시스템 로그, 알람, JSON, RSS, 센서 데이터
- 비정형 데이터: 스키마 구조 형태 X / 고정된 필드 X
- SNS, 웹 게시판, 텍스트, 이미지, 오디오, 비디오
- 정형 데이터: 스키마(형태) 구조 기반 형태, 고정된 필드에 저장, 일관성 O, 컬럼/로우 구조
- 시간 관점: 실시간, 비실시간
📌 시간 관점 또는 활용 주기에 따라 분류한다- 실시간 데이터: 생성된 이후 수 초 ~ 수 분 이내에 처리되어야 의미있는 현재 데이터
- 센서 데이터, 알람, 시스템 로그, 네트워크 장비 로그, 보안 장비 로그
- 비실시간 데이터: 생성된 이후 수 시간 or 수 주 이후에 처리되어야 의미있는 과거 데이터
- 통계, 웹 로그, 서비스 로그, 구매 정보, 디지털 헬스케어 정보
- 실시간 데이터: 생성된 이후 수 초 ~ 수 분 이내에 처리되어야 의미있는 현재 데이터
- 저장 형태 관점
📌 파일, 데이터베이스, 콘텐츠, 스트림 데이터- 파일 데이터: 파일 형식으로 저장, 크기가 대용량 or 개수가 다수인 데이터
- 데이터베이스 데이터: 데이터 종류 or 성격에 따라 데이터베이스의 컬럼 또는 테이블 등에 저장된 데이터
- 관계형 데이터베이스(RDBMS), NoSQL, 인메모리 데이터베이스
- 콘텐츠 데이터: 개별적 객체로 구분될 수 있는 미디어 데이터
- 텍스트, 이미지, 오디오, 비디오 등
- 스트림 데이터: 네트워크를 통해 실시간 전송되는 데이터
- 센서 데이터, HTTP 트랜잭션, 알람 등
(2) 데이터 속성 파악
- 수십 데이터 종류
📌 정형, 반정형, 비정형- 정형: 고정된 컬럼, 행열에 의해 속성 구별, 스키마를 지원함
- 반정형: 정형 데이터의 스키마에 해당하는 메타데이터를 가짐
- 비정형: 대표적으로는 텍스트 데이터나 멀티미디어 데이터
- 데이터 형태에 따른 분류
📌 정상적, 정량적- 정성적: 언어, 문자 형태, 저장, 검색, 분석에 많은 비용 소모
- 정량적: 수치, 도형, 기호 형태, 정형화된 데이터이므로 비용 소모 적음
- 데이터 속성 파악
- 범주형(Categorical, 질적변수): 특성에 따라 범주로 구분하여 측정되는 변수
- 연산 불가, 각 범주에 속한 개수, 퍼센트를 다룸, 원그래프, 막대그래프 등
- 명목형(Nominal): 명사형, 순서 없음, 이름만 의미를 부여함 ⇒ 같다(=), 다르다(≠)만 가능
- 순서형(Ordinal): 순서가 의미를 부여함(ex. 상태 양호=3, 보통=3, 나쁨=1) ⇒ 대소관계(<,>)만 비교 가능
- 수치형(Measure, 양적변수): 양적인 수치로 측정되는 변수
- 연산가능, 히스토그램, 시계열 그래프 등
- 이산형(Discrete): 하나한 셀 수 있음 (ex. 맞은 문제 개수, 방문 횟수)
- 연속형(Continuous): 변수가 구간 안의 모든 값을 가질 수 있는 경우 (ex. 키, 몸무게) ※ 나이: 시간이 지나면서 계속 늘어나는 연속형 변수지만, 1년 단위로 측정한다면 이산형 변수이다
- 범주형(Categorical, 질적변수): 특성에 따라 범주로 구분하여 측정되는 변수
- 데이터 속성에 대한 측정 정도
📌 범수형 변수는 명목, 서열, 등간 척도 / 수치형 변수는 비율, 간혹 등간 척도- 명목 척도: 임의의 범주로 분류 → 기호나 숫자를 부여 (분류의 수치화)
- 척도 값은 “분류”의 의미만
- 예) 혈액형, 지역 번호, 출신 국가, 직업 구분 등
- 같다, 다르다만 비교 가능
- 서열 척도, 순위 척도: 임의의 기준에 따라 상대적인 비교 및 순위화
- 척도 값이 분류와 서열 순서를 가짐, 수치의 크기나 차이는 의미 없음
- 예) 맛집 별점, 선호도 조사, 이용자 등급 등
- 대소 관계만 비교 가능
- 등간 척도, 간격 척도, 거리 척도: 비계량적인 변수를 정량적인 방법으로 측정
- 각 대상을 별도로 평가, 동일 간격화로 크기 간 차이를 비교할 수 있음
- 예) 온도, 미세먼지 수치, 당뇨 수치, 5점 척도 등
- 순서뿐만 아니라 간격도 의미 있음
- 비율 척도: 균등 간격, 절대 영점 있음, 비율 계산 가능한 척도
- 순서 의미 있음, 간격 의미 있음, 사칙연산 가능
- 예) 나이, 키, 금액, 거리, 넓이, 소득, 부피, 질량 등
- 속성 값을 연산했을 때 의미 있으면 비율 척도, 의미 없으면 등간척도
- 명목 척도: 임의의 범주로 분류 → 기호나 숫자를 부여 (분류의 수치화)
변수 유형 | 척도 유형 | 범주 | 순위 | 같은 간격 | 절대 영점 |
---|---|---|---|---|---|
범주형 | 명목척도 | O | |||
범주형 | 순위척도 | O | O | ||
연속형 | 등간척도 | O | O | O | |
연속형 | 비율척도 | O | O | O | O |
3) 데이터 변환
(1) 데이터 저장 전처리 절차
- 데이터 저장 전처리 절차
- 데이터 저장 전, 후로 활용 목적에 맞도록 적절한 처리가 필요하다
- 데이터 저장관리: 데이터 전/후처리 → 저장 → 보안관리 → 품질관리
- 데이터 전·후처리 시 고려사항
- 전처리: 데이터 유형 분류 기준을 적용할 수 있는 기능, 데이터 변환 기능, 변환 여부 확인 기능, 변환 실패 시 재시도 및 취소 기능, 변환된 데이터 저장 기능을 제공해야 한다
- 후처리: 이상값 변환 또는 자동 추천 기능, 집계 시 데이터 요약 기능, 변환, 패턴, 이벤트 감시 기능, 변환 로그 저장 관리 기능을 제공해야 한다
- 데이터 처리 방식 선정
- 전처리 단계: 수집한 데이터를 저장하기 위한 작업 (데이터 필터링, 유형 변환, 정제 등의 기술 활용)
- 후처리 단계: 저장된 데이터를 분석하기 좋게 가공하는 작업 (변환, 통합, 축소 등의 기술 활용)
(2) 데이터 변환 기술
- 데이터 변환: 데이터의 특정 변수를 정해진 규칙에 따라 바꿔주는 것
- 데이터 변환 기술: 평활화, 집계, 일반화, 정규화, 속성 생성
- 평활화(Smoothing): 잡음 제거를 위해 추세에서 벗어나는 값들을 변환
- 구간화, 군집화 → 거칠게 분포된 데이터를 매끄럽게 만든다
- 집계(Aggregation): 다양한 방법으로 데이터를 요약
- 복수 개의 속성을 하나로 줄임
- 유사한 데이터 객체(Data Object) 줄이고 스케일 변경
- 일반화(Generalization): 특정 구간에 분포하는 값으로 스케일 변화
- 특정 데이터가 아니라, 범용적인 데이터에 적합한 모델을 만드는 기법
- 이상값, 노이즈에 크게 영향받지 않아야 잘된 일반화
- 정규화(Normalization): 정해진 구간 내에 들도록 함
- 최단 근접 분류, 군집화와 같은 거리 측정 등을 위해 유용함
- 최소-최대 정규화, z-score 정규화, 소수 스케일링 등
- 속성 생성(Attribute, Feature Construction): 데이터 통합을 위해 새로운 속성 or 특징을 만듬
- 여러 데이터의 분포를 대표할 수 있는 새로운 속성, 특징을 활용
- 선택한 속성을 하나 이상의 새 속성으로 대체
- 평활화(Smoothing): 잡음 제거를 위해 추세에서 벗어나는 값들을 변환
- 정규화 기법 3가지
- 최소-최대 정규화: 최솟값 0, 최댓값 1, 다른 값을은 0과 1사이의 값으로 변환
- Z-스코어 정규화: 데이터가 평균 대비 몇 표준편차만큼 떨어져 있는지 점수화
- 이상값 문제를 피하는 정규화 전략
- 소수 스케일링: 특성값의 소수점을 이동하여 데이터 크기 조정
댓글남기기