[Data Mining] 딥러닝의 기초 - 오류역전파법
딥러닝의 기초 - 오류역전파법
손실 함수
예측값과 실제값의 차이를 나타냄
- 학습가능한 매개변수의 함수로 표현
- 모델의 목표에 따라 서로 다른 손실함수 사용
- 분류(크로스 엔트로피, 로그 로스), 회귀(평균제곱오차)
- 평균제곱오차 예시 (하나의 입출력 데이터)
오류역전파법
손실 함수가 최소가 되는 가중치를 찾는 방법
- 가중치 갱신 방법 - 경사하강법
- 방향 : 손실 함수에 대해 각각의 가중치로 편미분
- 강도 : 학습률에 따라 조정
- 경사하강법을 기반으로 다양한 variation이 존재
다층퍼셉트론의 표현
𝑤_32^((2))의 갱신 과정 (하나의 데이터에 대해)
𝑤_32^((2))의 갱신 과정 - Chain Rule로 정리
가중치 𝑊^((1)), 𝑊^((2))를 정리하면
오류역전파법의 한계
지역 최소값의 문제
- 차원의 저주 (curse of dimensionality)
- 초기조건에 따라 도달하는 최소값이 다를 수 있음
- 지역 최소값으로도 좋은 성능을 보임, 비지도학습으로 개선 가능
경사도(gradient)가 0에 가까워지는 문제
- 신경망이 깊어질수록 연쇄 법칙에 의한 미분이 중첩되어 미분이 0에 가까워짐
- 중첩된 미분이 0에 가까워지면 가중치의 갱신이 미미하여 학습효율이 낮아짐
- 해결방안 : 활성함수 ReLU의 활용, 배치 정규화 등
학습데이터의 과적합
- 지나친 학습으로 학습 데이터에만 최적화된 모델 생성
- 해결방안 : 검증 데이터의 활용, drop-out 기법 활용
댓글남기기