[논문 읽기] Don't Decay the Learning Rate, Increase the Batch Size / LR을 줄이지 말고, BATCH SIZE를 늘려라
-
반응형
DON’T DECAY THE LEARNING RATE, INCREASE THE BATCH SIZE
Learning rate를 줄이지 말고, Batch size를 늘려라.
보통 학습 중 learning rate를 감소시키는 것이 일반적이다.
learning rate를 고정한 대신에 학습 중에 점점 batch size를 늘려 learning rate를 늘린 것과 같은 learning curve를 얻었다.
SGD, SGD with momentum, Nesterov momentum, Adam optimizer에서 성공적이었던 실험이다.
batch size를 늘리면 파라미터 업데이트가 적어 학습이 빠르다. 배치사이즈를 늘리는 만큼 learning rate를 높여 학습속도를 더 높일 수 있다. 마지막으로, 모멘텀 m에 대해 1/(1-m) 만큼 batch size를 증가시킬 수 있지만 테스트 정확도가 약간 감소하는 경향이 있었다.
결정적으로, 논문에서의 방법을 사용하면 하이퍼파라미터 튜닝 없이 large batch 학습을 할 수 있으며, 30분만에 imagenet 데이터, resnet-50 모델의 검증 정확도를 76.1%까지 학습한다.
핵심
batch size는 learning rate를 올리는 것 만큼 비례하게 올리면 된다.
batch size 증가에 비례하게 1 / (1 - momentum) 만큼 momentum을 증가 시킬 수 있지만 테스트 정확도가 조금 감소한다.
이 방법으로 batch size를 늘려 학습을 훨씬 빨리 할 수 있다.
학습 곡선은 똑같으면서도 학습시간을 단축시킬 수 있다.
파라미터 업데이트 수는 줄이면서도 학습 중 cross-entropy 감소는 decaying learning rate와 거의 똑같은 모습을 볼 수 있다. Wide Resnet, CIFAR10 사용
테스트 정확도 또한 거의 똑같은 모습을 보여주고 있다.
SGD와 Adam optimizer를 사용했을 때도 학습하는동안 비슷한 테스트 정확도를 보여준다.