서론학습하는 방법에 대해서 앞으로 계속 사용하게 될 것이기에 이번 기회에 정리를 해두려고 한다.들어가기에 앞서 Optimizer는 목표를 최대화, 최소화하는 해를 찾는 과정이다.이 포스트는 최소 SGD와 그를 받침하는 개념에 대해 알고 있다고 가정하고 작성하겠습니다.SGD w, Adagrad, RMSProp, Adam, AdamW 에 대해서 알아볼 예정이고 이들은 합쳐지거나 부족한 점을 채운 것들이 많아서 앞의 몇개를 습득하면 뒤의 내용은 그렇게 어렵지 않다.특히 이름만 봐도 알 수 있는 것들이 많다.본론다양한 종류가 있는데, 그 중에서 가장 기초가 되는 Stochastic gradient descent + momentum은 이 글의 포스트에도 나와있으므로 짧게 설명하자면 기존의 값을 이용해서 좀 더 빠..