[빅데이터분석기사 필기] Ⅰ.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획(3)
키워드🔑
데이터 보안관리, 비식별화, 가명처리, 총계처리, 데이터값 삭제, 범주화, 데이터 마스킹, 적정성 평가, 데이터 품질검증
03. 데이터 수집 및 저장 계획
1. 데이터 수집 및 전환
4) 데이터 비식별화
(1) 데이터 보안관리
- 수집 데이터 보안
📌 개인정보, 데이터 연계, 빅데이터 보안 관점에서 고려해야 한다- 개인정보 보안 관점: 개인정보가 포함되어 있을 경우 삭제 혹은 비식별 조치
- 데이터 연계 보안 관점: 다양한 데이터의 연계 처리 시 보안 취약점 제거
- 빅데이터 보안 관점: 데이터 흐름에 대한 보안 고려, 안호화를 통해 유출 시 무결성 유지 필요
- 빅데이터 수명 주기별 보안 관리
📌 수집, 저장, 분석 단계별- 수집 보안 관리: 데이터 수집 기술 취약성, 수집 서버 및 네트워크 보안, 개인정보 및 기밀정보 유출 방지
- 저장 보안 관리: 데이터 저장소 취약성, 보안 등급 분류, 보안 모니터링
- 보안 등급: 기밀 수준(Confidentail), 민감 수준(Sensitive), 공개 수준(Public) 등
- 분석 보안 관리: 내부 사용자는 데이터 유출 방지, 외부 침입자의 유출행위 차단, 접근 기록 등의 보안로그 관리
- 분석가의 윤리의식 중요, 분석목적에 따라 분석가의 접근권한, 접근통제 등을 관리해야 함
- 빅데이터 보안 대응 방안
📌 빅데이터 수명 주기 전반(수집 → 저장 → 분석 → 활용)에 걸쳐서 보안 적용 방안 고려- 개인정보 처리, 사용자 인증, 접근 제어, 암호화, 보안 모니터링, 보안 인프라 등을 수명 주기에 따라 관리한다
(2) 데이터 비식별화
- 데이터 비 식별화
- 수집된 개인정보의 일부 or 전부를
- 삭제 or 다른 정보로 대체하여
- 다른 정보와 결합해도 특정 개인 식별이 어렵도록 한다
- 데이터 비식별화 적용 대상
- 그 자체로 개인을 식별할 수 있는 정보: 이름, 생년월일, 사진, 주민등록번호, 여권번호, 생체정보, 계좌번호 등
- 다른 정보와 함께 결합하여 개인을 알아볼 수 있는 정보: 성별, 나이, 국적, 신체특성, 신용특성, 경력특징 등
- 데이터 비식별화 처리 기법: 가명처리, 총계처리, 데이터값 삭제, 범주화, 데이터 마스킹 ⇒ 데이터 활용성 고려하여 기법 선택
< 데이터 비식별화 처리 기법에 활용되는 세부 기술 >
- 가명처리(Psuedonymisation): 다른 값으로 대체 → 완전 비식별화 가능, 데이터 변형 수준 낮지만 분석에 한계 존재
📌 세부기술: 휴리스틱 익명화, K-익명화, 암호화, 교환방법- 휴리스틱 익명화(Heuristic Anonymization): 정해진 규칙에 따라서 or 사람의 판단에 따라서 개인정보 숨김
- K-익명화(K-anonymity)
- 같은 속성값 가지는 데이터를 K개 이상으로 유지
- 지정된 속성이 가질 수 있는 K개 이상으로 유지
- 암호화(Encryption): 일정 규칙의 알고리즘을 적용하여 암호화하여 대체
- 복호화 값(key)에 대한 보안 방안도 함께 필요
- 교환방법(Swapping): 추출된 표본 레코드에 대해 교환
- 총계처리(Aggregation): 통계값 적용 → 통계분석용 데이터셋 작성에 유리하지만 정밀한 분석 어려움
📌 세부기술: 기본 방식, 부분집계, 라운딩, 데이터 재배열- 총계처리 기본 방식: 데이터 집합 or 부분적으로 총합, 평균 처리
- 부분 집계(Micro Aggregation): 부분 그룹만 처리 (다른 속성값에 비해 오차범위가 큰 항목 등)
- 라운딩(Rounding): 올림 or 내림 기준을 적용
- 데이터 재배열(Rearrangement): 기존 정보값은 유지, 개인정보와 연관되지 않도록 재배열
- 개인 정보와 타인 정보가 뒤섞임 → 전체 정보의 손상없이 비식별 처리
- 데이터값 삭제(Data Reduction): 특정 데이터값을 삭제 → 분석 다양성, 결과의 유효성, 신뢰성 저하 가능성
📌 세부기술: 속성값 삭제, 속성값 부분 삭제, 데이터 행 삭제, 준 식별자 제거를 통한 단순 익명화- 속성값 삭제(Reducing Variables): 개인식별항목 단순 제거
- 속성값 부분 삭제(Reducing Partial Variables): 일부 값 삭제 → 대표성을 가진 값으로 보이도록 함
- 데이터 행 삭제(Reducing Records): 민감한 속성값을 가진 개인정보 내용 전체를 제거함
- 준식별자 제거: 식별자 뿐만 아니라 준 식별자를 모두 제거 → 프라이버시 침해 위협 줄임
- 범주화(Data Suppression): 범주화(대푯값 변환) or 범위화(구간값 변환) → 정확한 수치 분석은 어려움
📌 세부기술: 기본 방식, 랜덤 올림, 제어 올림, 범위 방법, 세분 정보 제한- 범주화 기본 방식(은폐화): 평균 or 범주의 값으로 변환 → 명확한 값을 숨김
- 랜덤 올림(Random Rounding): 임의의 수 기준으로 올림(Round up) or 절사(Round down)
- 제어 올림(Controlled Rounding): 랜덤 올림의 단점 해결 → 행과 열이 맞지 않는 것을 제어하여 일치시킴
- 범위 방법(Data Range): 해당 값의 분포(범위, 구간)으로 표현
- 세분 정보 제한 방법(Sub-divide Level Controlling): 민감 항목, 높은 시각 항목을 상한, 하한 코딩, 구간 재코딩
- 데이터 마스킹(Data Masking): 전체 or 부분적으로 대체값으로 변환 → 완전비식별화 가능, 원시데이터 구조변형 적음
📌 세부기술: 임의 잡음 추가, 공백과 대체- 임의 잡음 추가 방법(Adding Random Noise): 임의의 숫자 등의 잡음을 더하거나 곱하여 노출 방지
- 공백(Blank)과 대체(Impute) 방법: 비식별 항목을 공백으로 바꿈 → 대체법 적용하여 공백을 채움
(3) 개인정보 비식별 조치 가이드라인
- 개인정보 비식별 조치 가이드라인
- 정보 일부 or 전부를 삭제 or 대체하거나
- 다른 정보와 쉽게 결합하지 못하도록 하여
- 특정 개인을 알아볼 수 없도록 하는 수행지침
- 단계별로 조치 기준 있음: 사전검토 → 비식별 조치 → 적정성 평가 → 사후 관리
- 사전 검토: 개인정보 해당 여부 검토
- 비식별 조치
- 식별자 조치 기준: 식별자는 원칙적으로 삭제
- 속성자 조치 기준: 이용 목적과 관련없는 속성자도 원칙적으로 삭제
- 비식별 조치 방법: 여러 조치 방법을 단독 or 복합적으로 활용
- 적정성 평가: 기초 자료 작성 → 평가단 구성(3명 이상) → 평가 수행 → 추가 비식별 조치 → 데이터 활용
📌 평가 수행: 프라이버시 보호 모델을 활용하여 비식별 수준 적정성 평가- k-익명성: 주어진 데이터 집합에서 준식별자 속성들이 동일한 레코드가 적어도 k개 존재하도록 하는 몯ㄹ
- l-다양성: k-익명성의 동질성 문제, 배경지식의 문제를 극복하여 익명성을 향상시키는 보완기술
- t-근접성: 동질 집하에서 민감정보의 분포와 전체 데이터 집합에서 민감정보의 분포가 유사한 차이를 보이게 하는 모델
- 사후 관리: 비식별 정보 안전조치, 재식별 가능성 모니터링
5) 데이터 품질 검증
(1) 데이터 품질 특성
📌 유효성 & 활용성
- 데이터 유효성: 정확성, 일관성으로 정의함
- 데이터 정확성: 정확성, 사실성, 적합성, 필수성, 연관성
- 데이터 일관성: 정합성, 일치성, 무결성
- 데이터 활용성: 유용성, 접근성, 적시성, 보안성으로 정의함
- 데이터 유용성: 충분성, 유연성, 사용성, 추적성
- 데이터 보안성: 보호성, 책임성, 안정성
(2) 데이터 변환 후 품질 검증 프로세스
- 수집 데이터 분석 프로세스: 빅데이터 수집 → 메타데이터 수집 → 메타데이터 분석 → 데이터 속성 분석
- 메타데이터 수집: 테이블 정의서, 컬럼 정의서, 도메인 정의서, 데이터 사전, ERD(ER-Diagram) 등
- 메타데이터를 통한 데이터 속성(유효성) 분석 방안
- 누락값 분석: NULL, 공백, 숫자 0의 분포 확인
- 값의 허용 범위 분석: 해당 속성의 도메인 유형에 따라서 범위 결정
- 허용 값 목록 분석: 허용 값 목록, 집합에 포함되지 않는 값을 발견
- 문자열 패턴 분석: 컬럼 속성값의 특성을 문자열로 도식화 → 특성을 파악하기 쉽게 해 놓은 표현 방법
- 날짜 유형 분석: DATETIME 유형, 문자형 날짜 유형을 활용
- 유일 값 분석: 유일해야 하는 컬럼에 중복이 있는지 확인
- 구조 분석: 관계 분석, 참조 무결성 분석, 구조 무결성 분석기 등을 활용하여 구조 결함 발견
💡
참조 무결성(Referential Integrity) 이란, 관계형 데이터베이스 모델에서
참조 관계에 있는 두 테이블의 데이터가 항상 일관된 값을 가지도록 유지되는 것을 말한다
- 데이터 유효성 여부를 검증할 수 있는 규칙 설정 기능 개발 → 일반적으로 정형 데이터에 대해 수행
- 정규표현식을 활용한 검증 수행 → 값 유무, 중복 여부 검증 외에도 데이터 양식, 규칙을 적용할 수 있음
표현기호 | 기능 | 예시 |
---|---|---|
∖ | 특수 문자 표기 | ∖t (탭), ∖s (스페이스), ∖d (숫자) |
│ | OR | a│b → a 혹은 b가 존재하면 참 |
^ | 시작 | ^abc → abc로 시작하는 문자열 등장 |
$ | 종료 | def$ → def로 종료되는 문자열 등장 |
() | 묶음 처리 | a(bc)+ → a 뒤에 bc가 1번 이상 등장 |
[] | [ ] 에 있는 문자열 중 1개와 매칭 | [a-d] → a, b, c, d 중 1개 이상 등장 |
* | 0개 이상의 문자열 매칭 | a(bc)* → a 뒤에 bc가 0번 이상 등장 |
+ | 1개 이상의 문자열 매칭 | d(ef)+ → d 뒤에 ef가 1번 이상 등장 |
{n} | n개 이상의 문자열 매칭 | ∖s{1,3} → 공백이 1번 이상 3번 이상 등장 |
(3) 품질 검증 방안
- 빅데이터 수집 시스템의 요구사항 관련 자료 수집: 수집 단계에서 품질관리를 해야 하는 요건 도출
- 수집된 빅데이터의 특성을 고려한 품질 검증 기준 정의
📌 수집 데이터의 복잡성, 완전성, 유용성 등에 대한 품질 검증 기준 정의- 복잡성 기준 정의: 데이터 구조, 형식, 자료, 계층 측면에서 정의함
- 완정성 기준 정의: 메타데이터, 개체 단위, 변수 정의 등을 기준으로 → 질이 충분하고 완전한가
- 유용성 기준 정의: 처리 용이성, 자료 크기, 하드웨어 및 소프트웨어의 제약 사항 측면에서 정의함
- 시간적 요소 및 일관성 기준 정의: 시간적 요소, 일관성, 타당성, 정확성을 기준으로 품질 관리
- 시간적 요소: 수집 기간, 수집 방법의 변화가 과거 자료 사용에 제약을 주는지 여부 등
- 데이터 변환 수 빅데이터 품질 검증 기준에 따라 검증 수행
댓글남기기