simpling

  • 홈
  • 태그
  • 방명록

learning rate 1

경사하강법 이해(2) - Learning Rate란?

이번에는 경사하강법을 이용해 최적화를 할 때 Learning Rate(학습률)을 사용하는 이유를 알아 볼 것이다. 경사하강법은 이전 글에서 작성한 것처럼 Loss값을 줄이는 과정으로 파라미터를 업데이트하는 과정인데 이를 수식으로 작성하면 다음처럼 표현할 수 있다. $L(\theta+\Delta \theta) < L(\theta)$ 위의 조건의 만족되면 Loss가 계속 줄어가는 것이니 학습이 잘 되는 것이다. $L(\theta+\Delta \theta)$ 를 Taylor 정리를 사용하면 다음과 같이 나타낼 수 있다. $$L(\theta+\Delta \theta) = L(\theta) + \bigtriangledown L * \Delta \theta + \frac{1} {2}\bigtriangledown^{..

머신러닝&딥러닝/기초정리 2020.03.28
이전
1
다음
더보기
프로필사진

인공지능 및 파이썬 공부를 하며 정리하는 공간입니다.

  • 분류 전체보기
    • 퀀트투자
    • Story
      • 여행
    • python
    • 머신러닝&딥러닝
      • Tensorflow&keras
      • 강화학습
      • 자연어처리
      • 논문리뷰
      • 기초정리
      • 베이지안
      • Torch
    • django
    • 컴퓨터 과학
      • 컴퓨터 구조
      • 운영체제
      • 네트워크

Tag

자연어처리, swa, 마르코프, epistemic, aleatoric, 일본여행, uncertainty, 딥러닝, self attention, 베이지안 딥러닝, bayesian deep learning, 경사하강, Generalization, CNN, bayesian, TRANSFORMER, 트랜스포머, multi-task-learning, interpretable, LSTM,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

Archives

Copyright © Kakao Corp. All rights reserved.

티스토리툴바