최대 1 분 소요

딥러닝의 기초 - 오류역전파법

손실 함수

예측값과 실제값의 차이를 나타냄

  • 학습가능한 매개변수의 함수로 표현
  • 모델의 목표에 따라 서로 다른 손실함수 사용
    • 분류(크로스 엔트로피, 로그 로스), 회귀(평균제곱오차)
  • 평균제곱오차 예시 (하나의 입출력 데이터)

image

오류역전파법

손실 함수가 최소가 되는 가중치를 찾는 방법

  • 가중치 갱신 방법 - 경사하강법
    • 방향 : 손실 함수에 대해 각각의 가중치로 편미분
    • 강도 : 학습률에 따라 조정 image
  • 경사하강법을 기반으로 다양한 variation이 존재 image

다층퍼셉트론의 표현

image

𝑤_32^((2))의 갱신 과정 (하나의 데이터에 대해)

image

image

image

image

image

image

𝑤_32^((2))의 갱신 과정 - Chain Rule로 정리

image

image

image

image

image


image

image

image

image


image

image

image

image

image

image

image

image

image

가중치 𝑊^((1)), 𝑊^((2))를 정리하면

image


image

image

image

image


image

오류역전파법의 한계

지역 최소값의 문제

  • 차원의 저주 (curse of dimensionality)
  • 초기조건에 따라 도달하는 최소값이 다를 수 있음
  • 지역 최소값으로도 좋은 성능을 보임, 비지도학습으로 개선 가능

경사도(gradient)가 0에 가까워지는 문제

  • 신경망이 깊어질수록 연쇄 법칙에 의한 미분이 중첩되어 미분이 0에 가까워짐
  • 중첩된 미분이 0에 가까워지면 가중치의 갱신이 미미하여 학습효율이 낮아짐
  • 해결방안 : 활성함수 ReLU의 활용, 배치 정규화 등

학습데이터의 과적합

  • 지나친 학습으로 학습 데이터에만 최적화된 모델 생성
  • 해결방안 : 검증 데이터의 활용, drop-out 기법 활용

댓글남기기