[Data Mining] 데이터 마이닝과 기계학습

1 분 소요

데이터 마이닝과 기계학습

데이터 마이닝 셀프 스터디 방법 (1/2)

문제 중심의 데이터 마이닝 역량 습득

Kaggle → Code → 자신이 해결하고자 하는 문제 검색
(예시) Marketing으로 검색
- https://www.kaggle.com/jennifercrockett/marketing-analytics-eda-task-final/notebook
문제와 데이터를 확인하고, 주어진 코드를 한 줄 씩 재작성
- Python을 전혀 모를 경우 → 웹상의 튜토리얼을 따라 jupyter notebook 설치 및 실행 → 기본적인 문법 공부 필요
- Python을 경험해 본 경우 → 해당 코드를 한 줄 씩 작성해 가면서 실행
- 분석 방법론을 확인하고 방법론에 대한 공부
  - 해당 문제에서는 Linear Regression을 사용하기 때문에, 선형회귀분석의 가장 기본적인 방법인 Least Square Method 공부(선형대수에서 배움)
  - 코딩에 익숙하면 scikit-learn의 해당 함수에서 내용 확인, Least Square Method에 대한 온라인 강의 등을 확인.
- 각종 시각화 방법 확인

데이터 마이닝 셀프 스터디 방법 (2/2)

프로젝트 팀 구성원이 스터디 그룹으로 하는 것을 추천

1주에 한명씩 공부한 내용을 공유하는 방식으로 추진
- 가능하면 블로그 혹은 웹페이지에 공부한 내용을 정리
접근하기 쉬운 문제부터 시작
이번 강의의 프로젝트를 준비하는 차원으로도 적합

지속적인 학습이 중요

개개인이 설정한 목표에 따라 수준을 결정할 필요가 있음
데이터 마이닝 방법론은 도구적인 측면이 강하기 때문에 장기간 사용하지 않으면 무용지물

데이터 마이닝과 기계학습

데이터 마이닝

빅데이터에서 새로운 패턴이나 지식을 발견하는 데 목적
데이터베이스 지식 발견 프로세스의(Knowledge Discovery in Database)한 과정을 의미
다양한 분야와 혼용되어 활용(AI, ML, BI 등)
새로운 사실을 발견해야 한다는 점에서 군집 분석이나 이상 탐지가 주류를 이룸

기계학습

데이터를 통한 학습과정을 통해 특정 패턴을 예측하는 것이 목적
데이터 마이닝과 방법론적으로 매우 유사함
기계학습의 접근방법 중 비지도 학습의 경우 대부분데이터 마이닝에 활용 가능함
기계학습이 크게 부상한 이유는 지도학습 방법 중 인공신경망을 활용한 딥러닝

기계학습

지도학습

라벨링된 데이터로 학습하는 방법

입력과 출력 데이터의쌍으로 이루어졌으며, 입력값에 대해 예측하고자 하는 출력값이 이미 부여된 경우를 의미함
- 라벨링(labeling)은 태깅(tagging) 혹은 어노테이션(annotation)으로도 사용
- 라벨링된 데이터는 처음 구축할 때 많은 비용이 소요되며, 적법한 절차를 준수해야함
학습데이터는 다다익선이나 분야에 따라 구축이 어려운 경우도 존재
- 대안으로는 활성학습(Active Learning)이 있음

지도학습은 분류가 주된 목적이며 다양한 모델이 있음

회귀분석
인공신경망
- 심층신경망, 합성곱신경망, 순환신경망 등

비지도학습

라벨링이 없는 데이터에서 패턴을 찾는 방법

입력과 출력이 아닌 입력 데이터만 있는 경우
- 입력과 출력이 아닌 입력 데이터만 있는 경우
- (예시) 사람의 안면데이터에 대한 비지도학습의 경우 사람을 성별, 인종으로 군집
- 비지도학습은 학계에서도 매우 도전적인 과제
  - 귀납적 편향(Inductive Bias) 없이는 비지도학습을 성공적으로 수행하기 어려움
- 입력데이터 자체만으로 지도학습을 수행하는 경우에도 해당
  - (예시) 오토 인코더

LEE CHANWOO

[Data Mining] 데이터 마이닝과 기계학습

데이터 마이닝과 기계학습

데이터 마이닝 셀프 스터디 방법 (1/2)

문제 중심의 데이터 마이닝 역량 습득

데이터 마이닝 셀프 스터디 방법 (2/2)

프로젝트 팀 구성원이 스터디 그룹으로 하는 것을 추천

지속적인 학습이 중요

데이터 마이닝과 기계학습

데이터 마이닝

기계학습

기계학습

지도학습

비지도학습

강화학습

인공신경망 모델

인공신경망 모델 - 순환신경망

인공신경망 모델 - 합성곱신경망

인공신경망 모델 - 적대적 생성 신경망(GAN)

공유하기

댓글남기기

참고

[Machine Learning] VAE : Encoder, Auto Encoder 그리고 Variational Auto Encoder

[논문 리뷰] Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators

[Network] 네트워크 터널링 : Cloudflare Tunnel로 로컬 환경을 안전하게 외부로 연결하기

[Machine Learning] SMOTE : 불균형 데이터 합성 샘플링 가이드