강의 소개
최적화와 관련된 다양한 Gradient Descent 기법들을 배웁니다.
기존 SGD(Stochastic gradient descent)를 넘어서 최적화(학습)가 더 잘될 수 있도록 하는 다양한 기법들에 대해 알아봅니다.
Further reading
강의 소개
최적화와 관련된 다양한 Gradient Descent 기법들을 배웁니다.
기존 SGD(Stochastic gradient descent)를 넘어서 최적화(학습)가 더 잘될 수 있도록 하는 다양한 기법들에 대해 알아봅니다.
Further reading
강의 영상
강의 타임스탬프
(동영상 우측 하단의 '동영상 목차'를 활용하시면 더욱 편리합니다.)
[00:00:08] Practical Gradient Descent Methods (p.14)
[00:01:20] Batch-size Matters (p.16)
[00:04:17] Gradient Descent Methods (p.18)
[00:04:59] Gradient Descent (p.19)
[00:05:54] Momentum (p.20)
[00:07:25] Nesterov Accelerated Gradient (p.21)
[00:09:19] Adagrad (p.23)
[00:11:17] Adadelta (p.24)
[00:13:24] RMSprop (p.25)
[00:14:30] Adam (p.26)
강의 자료
comment
비공개 글입니다.
[15:07]
m_t=b_1*m_{t=1}+(1-\beta_1)g_t mt=b1∗mt=1+(1−β1)gt -> m_t=b_1*m_{t-1}+(1-\beta_1)g_t mt=b1∗mt−1+(1−β1)gt
* t=1 -> t-1로 변경되는게 맞지 않은가 싶습니다
틀렸다면 말해주세요. 용어가 어려워서 적습니다
Practical
실용적인
실지의
generalization
일반화
estimator
추정량
automatic differentiation
자동 미분
momentum
운동량
window size
한번에 받을 수 있는 데이터의 양
exponential moving average
지수이동평균
Unbiased Estimator
편의추정량은 통계학에서 기댓값이 모수와 다른 추정량이다.
Unbiased Estimator 는 파라미터 추정 평균에 대해서 bias 값이 0인 경우를 말하고,
Biased Estimator 는 파라미터 추정 평균의 bias값이 0이 아닌 경우를 말합니다.