[빅데이터분석기사 필기] Ⅰ.빅데이터 분석 기획 - 01. 빅데이터의 이해(1)
키워드🔑
빅데이터, DIKW피라미드, 3V, 5V, 7V, 정형, 반정형, 비정형, 암묵지, 형식지,
책임원칙, 빅데이터조직, 하드스킬, 소프트스킬
목차
Ⅰ.빅데이터 분석 기획
Ⅱ.빅데이터 탐색
Ⅲ.빅데이터 모델링
Ⅳ.빅데이터 결과 해석
01. 빅데이터의 이해
1. 빅데이터 개요 및 활용
1) 빅데이터 특징
(1) 빅데이터 개념
📌 수십 TB의 데이터 및 데이터 분석 기술 / DIKW 피라미드
- 빅데이터
- 수십 테라바이트(TB) 이상의 막대한 양의 정형/비정형 데이터
- 데이터로부터 가치를 추출하고, 결과를 분석하는 기술
- DIKW 피라미드: 데이터(Data) → 정보(Information) → 지식(Knowledge) → 지혜(Wisdom)
- 데이터(Data): 객관적 사실, 순수한 수치나 기호
- 정보(Information): 데이터를 가공 및 처리 → 연관관계&의미가 도출된 데이터
- 지식(Knowledge): 정보를 구조화 → 분류&일반화시킨 결과물, 규칙
- 지혜(Wisdom): 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어/상황, 맥락에 맞게 규칙을 적용하는 요소
- Byte 크기 비교(KMGT PEZY)
- KB < MB < GB < TB < PB < EB < ZB < YB
- 킬로 < 메가 < 기가 < 테라 < 페타 < 엑사 < 제타 < 요타
- 테라바이트 = 10^12 바이트
(2) 빅데이터 특징
📌 규모, 다양성, 속도 + 신뢰성, 가치 + 정확성, 휘발성
- 3V: Volume, Variety, Velocity
- Volume(규모): 빅데이터 분석 규모
- Variety(다양성): 자원 유형 → 정형/반정형/비정형
- Velocity(속도): 수집/분석/활용속도 → 실시간성/처리속도 가속화
- 5V: 3V + Veracity, Value
- Veracity(신뢰성): 데이터가 가지는 신뢰 및 품질
- Value(가치): 데이터를 통해 얻을 수 있는 가치(정확성, 시간성과 관련됨)
- 7V: 5V + Validity, Volatility
- Validity(정확성): 데이터가 가지는 유효성 및 정확성
- Volatility(휘발성): 데이터가 의미가 있는 기간(장기적인 관점에서 유용한 가치를 창출해야함)
(3) 빅데이터의 유형
📌 구조적 관점에서 정형, 반정형, 비정형으로 구분
- 정형: 스키마 구조 / 고정필드(속성) / DBMS에 저장
- Oracle, MS-SQL 등의 관계형 데이터베이스
- 반정형: 고정필드X / 메타 데이터 or 스키마 정보 포함
- XML, HTML, JSON 등
- 비정형: 고정필드X / 메타 데이터 X /스키마X
- 데이터 각각이 객체로 구분됨
- 텍스트, 문서, 이진 파일, 이미지, 동영상 등
💡
스키마란, DB에서 자료의 구조, 표현방법, 자료 간 관계를 형식언어로 정의한 구조
(4) 데이터 지식경영
📌 데이터 기반 지식경영의 핵심 이슈는 암묵지와 형식지의 상호작용에 있음
- 지식구분: 암묵지, 형식지
- 암묵지: 학습 및 경험으로 개인에게 체화되어 있음 / 겉으로는 드러나지 않음 / 공유되기 어려움
- 형식지: 문서 및 매뉴얼 / 형상화된 지식 / 전달 및 공유하기 쉬움
- 상호작용: 내면화, 공통화, 표출화, 연결화
- 공통화: 암묵지 → 암묵지 / 다른사람과 대화 등의 상호작용 (인수인계 등)
- 내면화: 형식지 → 암묵지 / 교육 등을 통해 체화 (공부 등)
- 표출화: 암묵지 → 형식지 / 내재된 경험을 문서화 및 매체화 (논문 작성 등)
- 연결화: 형식지가 상호결합하여 새로운 형식지 창출 (후속 연구 등)
2) 빅데이터 가치
(1) 빅데이터의 가치
- 경제적 자산 / 불확실성 제거 / 리스크 감소 / 스마트한 경쟁력 / 타 분야 융합
(2) 빅데이터 가치 산정이 어려운 이유
- 다양함 & 새로움
- 데이터 활용 방식의 다양화: 특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없음 / 기존에 풀 수 없던 문제해결
- 새로운 가치 창출: 기존에 없던 가치를 창출
- 분석기술의 급속한 발전: 분석 비용이 저렴해지면서 활용도가 증가함
(3) 빅데이터 영향
- 기업: 비즈니스 모델 혁신 / 신사업 발굴 / 경쟁우위 확보 / 생산성 향상
- 정보: 사회변화 추정 / 환경 탐색 / 상황 분석 / 미래 의제 도출 및 대응
- 개인: 빅데이터 서비스를 저렴하게 활용 / 적시에 필요한 정보 획득
(4) 빅데이터 위기 요인 및 통제 방안
- 책임 원칙 / 사용자 책임
- 빅데이터 위기 요인: 사생활 침해 / 책임원칙 훼손 / 데이터 오용
- 사생활 침해: 인스타에 여행 간다고 게시 → 자택 범죄 노출
- 책임원칙 훼손: 민주주의 국가 원리는 잠재적 위협이 아니라, 명확한 결과에 대한 책임을 물음
- 데이터 오용: 언제나 맞을 수는 없다는 오류, 잘못된 지표를 사용하는 오용
- 위기 요인에 대한 통제 방안: 알고리즘에 대한 접근 허용 / 책임의 강조 / 결과 기반의 책임 적용
- 알고리즘에 대한 접근 허용: 알고리즘을 통해 불이익 당한 사람들을 위해 “알고리즈미스트”라는 전문가 필요
- 책임의 강조: 개인정보를 사용하는 “사용자”의 책임을 강조
3) 빅데이터 산업의 이해
(1) 빅데이터 산업 개요
- 클라우드 컴퓨팅 기술의 발전 → 데이터 처리 비용 급감 → 빅데이터 발전
- 주요국, 글로벌 기업: 산업 육성 및 “활용”에 주력
- 우리나라: 데이터 생산량은 많음 / “활용”은 저조
💡
클라우드 컴퓨팅이란, 인터넷을 통해 다수의 사용자들에게
가상화된 컴퓨터의 시스템 리소스를 요구하는 즉시 ‘서비스’로 제공하는 컴퓨팅 기술
(2) 산업별 빅데이터 활용
- 의료 및 건강 / 과학기술 / 정보보안 / 제조 및 공정 / 소비 및 거래 / 교통 및 물류
4) 빅데이터 조직 및 인력
(1) 빅데이터 조직 설계
- 빅데이터 업무 프로세스: 빅데이터 도입 → 구축 → 운영
- 조직 구조 설계 요소: 업무 활동 / 부서화 / 보고 체계
- 수직 업무 활동: 우선순위 결정
- 수평 업무 활동: 업무 프로세스 절차별로 배분
- 조직 구조 유형: 집중 구조(별도) / 기능 구조(각자) / 분산 구조(배치)
- 집중: 전사의 분석 업무를 별도 조직에서 담당
- 기능: 해당 부서에서 각자 분석 수행
- 분산: 분석 조직 인력들을 현업 부서로 배치
- 조직 구조의 설계 특성: 공식화(기준설정) / 분업화 / 직무 전문화 / 통계 범위(인원수) / 의사소통 및 조정
(2) 조직 역량
- 지속적인 경영과 성과 달성을 위해 중요한 요소
- 역량 모델링: 목표 달성을 위해 우수 성과자의 기여가 중요함
- 직무별 역량 모델: 우수 성과자의 직무 역량 요소들을 도출하여 만든다
- 데이터 사이언티스트의 요구역량: 하드스킬, 소프트 스킬
- 하드 스킬(Hard skill): 이론적 지식(기법, 방법론 습득) / 분석기술의 숙련도(노하우)
- 소프트 스킬(Soft skill): 통찰력(논리적 비판, 호기심 등) / 협력(커뮤니케이션) / 전달력(스토리텔링, 비주얼라이제이션)
- 가트너(Gartner): 분석 모델링, 데이터 관리, 소프트 스킬, 비즈니스 분석
💡
데이터 사이언티스트란, 복잡한 비즈니스 문제를 모델링, 인사이트를 도출하여
통계학, 알고리즘, 데이터 마이닝, 시각화 기법 등을 통해 가치를 찾아내는 사람
- 역량 모델 개발 절차
- 조직의 미션, 성과목표, 핵심성공요인 검토 → 조직 구성원의 행동특성 도출 → 역량 도출 → 역량 모델 확정
- 역량 교육 체계 설계 절차
- 요구사항 분석 → 직무별 역량모델 검토 → 역량 차이 분석 → 직무 역량 매트릭스 → 교육 체계 설계
(3) 조직성과 평가
- 개인성과 관리가 중요 → 목표 설정을 위한 핵심성공요인(CSF), 목표달성 위한 핵심성과지표(KPI) 정의
- 조직성과 평가 절차: 목표 설정 → 모니터링 → 목표 조정 → 평가 실시 → 결과의 피드백
- 균형 성과표(BSC; Balanced Score Card) 4가지 관점: 재무 / 고객 / 내부 프로세스 / 학습 및 성장
댓글남기기