[Basic] - 확률적 경사 하강법 SGD(Stochastic Gradient Descent)
경사하강법은 지도 학습에서 Loss 값이 최소가 되게하는 조건을 만족시켜주는 식입니다. 스텝사이즈에서 Loss의 gradient를 곱한 다음에 현재 가중치에서 빼서 다음 가중치로 업데이트를 시켜줍니다. 데이터가 엄청 많다면 모델에 큰 너무 배열이 들어오게 됩니다. 배열의 크기가 크다면 연산의 속도가 느리고 하드웨어적으로 메모리가 부족한 문제가 발생할 수 있습니다. 그래서 이런 문제를 해결하기 위해 데이터 전체를 넣는 것이 아닌 mini-batch라는 이름을 가진 부분으로 쪼갭니다. 데이터를 그냥 쪼개면 순서에 영향을 미칠 수도 있으니 shuffle한 후에 나눠줍니다. 확률적 경사 하강법은 일반 경사하강법과 식이 똑같습니다. 단지 차이는 경사 하강법은 전체 데이터를 이용한다는 것이고 SGD는 일부 데이터를..