2 분 소요

키워드🔑
사회연결망분석(SNA), 연결정도, 포괄성, 밀도, 연결정도 중심성, 근접 중심성, 매개 중심성,
감성분석, 오피니언 마이닝, 텍스트 마이닝, 웹마이닝

02. 분석기법 적용

2. 고급 분석기법

6) 비정형 데이터 분석


(1) 비정형 데이터 분석

  • 비정형 데이터 분석
    • 비정형 데이터 안에서 통계적 규칙/패턴을 탐색하고 의미있는 정보로 변환하여 기업의 의사결정에 적용하는 분석기법


(2) 비정형 데이터 분석기법
📌 사회 연결망 분석 / 감성 분석 / 오피니언 마이닝 / 텍스트 마이닝 / 웹 마이닝

  • 사회 연결망 분석(SNA)
    • 그룹에 속한 사람들 간 네트워크 특성/구조를 파악/분석/시각화
    • 개인과 집단간 관계
    • 노트/링크로 분석
    • 연결정도/포괄성/밀도
  • 감성 분석(Sentiment Analysis)
    • 텍스트로부터 어떤 주제에 대한 주관적인상/감정/태도를 뽑아내는 분석
    • 제품 평판 분석
    • 측정 주체에 따라 달라질 수 있음
    • 문장에서 긍정/부정 단어 발생 빈도 파악
  • 오피니언 마이닝(Opinion Mining)
    • 주관적 의견 포함 데이터 사용자가 게시한 의견/감정을 나타내는 패턴 분석
    • 선호도 판별
    • 긍정/부정/중립
    • 특징추출/문장인식
  • 텍스트 마이닝(Text Mining)
    • 텍스트 처리방식으로 정보 추출
    • 문서에서 정보 습득
    • 단어/구/절로 전처리
    • 정보추출/문서요약/문서분류/문서군집화
  • 웹 마이닝(Web Mining)
    • 웹에서 발생하는 고객 행위/특성 데이터 분석/추출/정제하여 의사결정에 활용
    • 노드: 정보단위
    • 링크: 연결점
    • 유형: 내용/사용/구조


(3) 텍스트 마이닝(Text Analysis)

  • 텍스트 마이닝
    • 텍스트 형태의 비정형 데이터들을 자연어처리 방식을 이용하여 정보를 추출하는 분석기법
  • 자연어처리(NLP): 인간이 이해할 수 있는 언어를 기계가 이해할 수 있게 하는 기술
  • 절차: 텍스트 수집 → 의미 추출 → 패턴 분석 → 정보 생성
    • 텍스트 수집: DB, 문서 등에서 수집 → 단어/구/절을 가공할 수 있도록 전처리
    • 의미 추출: 복잡한 표현을 단순화 → 의미 데이터로 저장
    • 패턴 분석: 의미 데이터 기반으로 문서 자동 군집화/분류
    • 정보 생성: 시각화 도구로 정보 표현 기능: 정보 추출 / 문서 요약 / 문서 분류 / 문서 군집화
    • 정보 추출(Extraction): 문장 or 질의 포맷에 맞추어 원하는 정보를 추출
    • 문서 요약(Summarization): 문서의 중요 내용을 글로 요약
    • 문서 분류(Classification) 주어진 키워드 집합에 따라 문서를 카테고리로 분류
    • 문서 군집화(Clustering): 동일한 내용의 문서들을 묶음


(4) 오피니언 마이닝(Opinion Mining)

  • 오피니언 마이닝
    • 주관적 의견이 포함된 데이터에서 사용자가 게재한 의견/감정을 나타내는 패턴을 분석하는 기법
    • 특정 제품/서비스를 좋아하는/싫어하는 이유 분석 → 실시간 여론 변화 확인
  • 절차: 특징 추출 → 문장 인식 → 요약 및 전달
    • 특징 추출: 긍정/부정 단어 정보 추출
    • 문장 인식: 규칙기반/통계기반 방법 → 세부 평가요소&오피니언으로 구성된 문장 인식
    • 요약 및 전달
      • 긍정/부정 표현 통계
      • 주요 문장 추출/요약


(5) 웹 마이닝(Web Mining)

  • 웹 마이닝
    • 웹상의 문서/서비스들로부터 정보를 자동으로 추출/발견하는 기법
  • 유형: 웹 내용/사용/구조 마이닝
    • 웹 내용 마이닝
      • 웹 페이지의 내용 중 유용한 정보추출
      • ex) 텍스트, 이미지, 사운드 등
    • 웹 사용 마이닝
      • 웹 로그를 통해 사용자 행위 패턴 분석 및 정보 추출
      • ex) 사용자 프로필, 페이지 접근 패턴 등
    • 웹 구조 마이닝
      • 웹 사이트의 구조적인 요약 정보를 마이닝
      • ex) 웹 페이지, 하이퍼링크 등


(6) 사회 연결망 분석(SNA; Social Network Analysis

  • 사회 연결망 분석
    • 개인과 집단간 관계를 노드와 링크로 그룹에 속한 사람들간의 네트워크 특성 & 구조를 분석 & 시각화 -절차: 데이터 수집 → 분석 → 시각화
    • 데이터 수집: SNS에서 데이터 수집
      • 웹 크롤러, NodeXL 등 활용
    • 데이터 분석: R, Python, NodeXL 등 활용
    • 데이터 시각화: 분석 방향, 필요한 정보에 따라 시각화
  • 주요 속성: 응집력 / 구조적 등위성 / 명성 / 범위 / 중계
    • 응집력(Cohension): 사람들 간의 강한 사회화 관계의 존재
    • 구조적 등위성(Equivalence): 네트워크의 구조적 지위, 그 지위가 주는 역할이 동일한 사람들 간 관계
    • 명성(Prominence): 네트워크에서 권력을 갖고 있는 사람이 누군가를 확인
    • 범위(Range): 네트워크 규모
    • 중계(Brokerage): 다른 네트워크와 연결해주는 정도
  • 측정지표: 연결정도 / 포괄성 / 밀도 /연결정도 중심성 / 근접 중심성 / 매개 중심성
    • 연결정도: 한노드가 몇개의 노드와 연결되어 있는가(연결 관계 개수)
    • 포괄성: 네트워크 내 서로 연결된 노드의 개수
    • 밀도: 네트워크 내 노드 간 전반적인 연결정도 수준(전체구성원 관계)
    • 연결정도 중심성: 한 노드가 연결하고 있는 다른 노드들의 합
    • 근접 중심성: 각 노드간 거리를 바탕으로 중심성 측정(모든 노드간 거리)
    • 매개 중심성: 네트워크 내 한 노드가 다른 노드들 사이에 위치하는 정도(한 노드의 영향력)

댓글남기기