서론일반적인 Gradient Descent에서 수렴을 좀 더 빠르게 하기 위함이다.이전에 필요한 내용은 모멘텀 방법이 있었고 여기서 발전한 내용이다.모멘텀에 대해서 잠시 이야기하자면 이전 단계의 기울기를 포함해 학습이 빠르고 부드럽게 만드는 것이다.NAG는 여기서 모멘텀을 활용해 예측된 값 기울기를 사용한다.자세한 수식은 본론에서 설명하도록 하고 여기서 마친다.본론모멘텀모멘텀에 대해서 잠시 짚고 넘어간다면 다음과 같다.속도 업데이트 : $v_t=\gamma v_{t-1}+\eta \nabla J(\theta_{t-1})$$v_t$는 속도, $\gamma$는 모멘텀 계수, $\eta$는 학습률,$\nabla J(\theta_{t-1})$는 $\theta_{t-1}$에서의 기울파라미터 업데이터 : $\the..