[빅데이터분석기사 필기] Ⅲ.빅데이터 모델링 - 02. 분석기법 적용 (10) 비정형 데이터 분석
키워드🔑
사회연결망분석(SNA), 연결정도, 포괄성, 밀도, 연결정도 중심성, 근접 중심성, 매개 중심성,
감성분석, 오피니언 마이닝, 텍스트 마이닝, 웹마이닝
02. 분석기법 적용
2. 고급 분석기법
6) 비정형 데이터 분석
(1) 비정형 데이터 분석
- 비정형 데이터 분석
- 비정형 데이터 안에서 통계적 규칙/패턴을 탐색하고 의미있는 정보로 변환하여 기업의 의사결정에 적용하는 분석기법
(2) 비정형 데이터 분석기법
📌 사회 연결망 분석 / 감성 분석 / 오피니언 마이닝 / 텍스트 마이닝 / 웹 마이닝
- 사회 연결망 분석(SNA)
- 그룹에 속한 사람들 간 네트워크 특성/구조를 파악/분석/시각화
- 개인과 집단간 관계
- 노트/링크로 분석
- 연결정도/포괄성/밀도
- 감성 분석(Sentiment Analysis)
- 텍스트로부터 어떤 주제에 대한 주관적인상/감정/태도를 뽑아내는 분석
- 제품 평판 분석
- 측정 주체에 따라 달라질 수 있음
- 문장에서 긍정/부정 단어 발생 빈도 파악
- 오피니언 마이닝(Opinion Mining)
- 주관적 의견 포함 데이터 사용자가 게시한 의견/감정을 나타내는 패턴 분석
- 선호도 판별
- 긍정/부정/중립
- 특징추출/문장인식
- 텍스트 마이닝(Text Mining)
- 텍스트 처리방식으로 정보 추출
- 문서에서 정보 습득
- 단어/구/절로 전처리
- 정보추출/문서요약/문서분류/문서군집화
- 웹 마이닝(Web Mining)
- 웹에서 발생하는 고객 행위/특성 데이터 분석/추출/정제하여 의사결정에 활용
- 노드: 정보단위
- 링크: 연결점
- 유형: 내용/사용/구조
(3) 텍스트 마이닝(Text Analysis)
- 텍스트 마이닝
- 텍스트 형태의 비정형 데이터들을 자연어처리 방식을 이용하여 정보를 추출하는 분석기법
- 자연어처리(NLP): 인간이 이해할 수 있는 언어를 기계가 이해할 수 있게 하는 기술
- 절차: 텍스트 수집 → 의미 추출 → 패턴 분석 → 정보 생성
- 텍스트 수집: DB, 문서 등에서 수집 → 단어/구/절을 가공할 수 있도록 전처리
- 의미 추출: 복잡한 표현을 단순화 → 의미 데이터로 저장
- 패턴 분석: 의미 데이터 기반으로 문서 자동 군집화/분류
- 정보 생성: 시각화 도구로 정보 표현 기능: 정보 추출 / 문서 요약 / 문서 분류 / 문서 군집화
- 정보 추출(Extraction): 문장 or 질의 포맷에 맞추어 원하는 정보를 추출
- 문서 요약(Summarization): 문서의 중요 내용을 글로 요약
- 문서 분류(Classification) 주어진 키워드 집합에 따라 문서를 카테고리로 분류
- 문서 군집화(Clustering): 동일한 내용의 문서들을 묶음
(4) 오피니언 마이닝(Opinion Mining)
- 오피니언 마이닝
- 주관적 의견이 포함된 데이터에서 사용자가 게재한 의견/감정을 나타내는 패턴을 분석하는 기법
- 특정 제품/서비스를 좋아하는/싫어하는 이유 분석 → 실시간 여론 변화 확인
- 절차: 특징 추출 → 문장 인식 → 요약 및 전달
- 특징 추출: 긍정/부정 단어 정보 추출
- 문장 인식: 규칙기반/통계기반 방법 → 세부 평가요소&오피니언으로 구성된 문장 인식
- 요약 및 전달
- 긍정/부정 표현 통계
- 주요 문장 추출/요약
(5) 웹 마이닝(Web Mining)
- 웹 마이닝
- 웹상의 문서/서비스들로부터 정보를 자동으로 추출/발견하는 기법
- 유형: 웹 내용/사용/구조 마이닝
- 웹 내용 마이닝
- 웹 페이지의 내용 중 유용한 정보추출
- ex) 텍스트, 이미지, 사운드 등
- 웹 사용 마이닝
- 웹 로그를 통해 사용자 행위 패턴 분석 및 정보 추출
- ex) 사용자 프로필, 페이지 접근 패턴 등
- 웹 구조 마이닝
- 웹 사이트의 구조적인 요약 정보를 마이닝
- ex) 웹 페이지, 하이퍼링크 등
- 웹 내용 마이닝
(6) 사회 연결망 분석(SNA; Social Network Analysis
- 사회 연결망 분석
- 개인과 집단간 관계를 노드와 링크로 그룹에 속한 사람들간의 네트워크 특성 & 구조를 분석 & 시각화 -절차: 데이터 수집 → 분석 → 시각화
- 데이터 수집: SNS에서 데이터 수집
- 웹 크롤러, NodeXL 등 활용
- 데이터 분석: R, Python, NodeXL 등 활용
- 데이터 시각화: 분석 방향, 필요한 정보에 따라 시각화
- 주요 속성: 응집력 / 구조적 등위성 / 명성 / 범위 / 중계
- 응집력(Cohension): 사람들 간의 강한 사회화 관계의 존재
- 구조적 등위성(Equivalence): 네트워크의 구조적 지위, 그 지위가 주는 역할이 동일한 사람들 간 관계
- 명성(Prominence): 네트워크에서 권력을 갖고 있는 사람이 누군가를 확인
- 범위(Range): 네트워크 규모
- 중계(Brokerage): 다른 네트워크와 연결해주는 정도
- 측정지표: 연결정도 / 포괄성 / 밀도 /연결정도 중심성 / 근접 중심성 / 매개 중심성
- 연결정도: 한노드가 몇개의 노드와 연결되어 있는가(연결 관계 개수)
- 포괄성: 네트워크 내 서로 연결된 노드의 개수
- 밀도: 네트워크 내 노드 간 전반적인 연결정도 수준(전체구성원 관계)
- 연결정도 중심성: 한 노드가 연결하고 있는 다른 노드들의 합
- 근접 중심성: 각 노드간 거리를 바탕으로 중심성 측정(모든 노드간 거리)
- 매개 중심성: 네트워크 내 한 노드가 다른 노드들 사이에 위치하는 정도(한 노드의 영향력)
댓글남기기