확률적 경사 하강 알고리즘은 다양한 딥러닝 애플리케이션에서 심층 신경망의 최적화를 위해 널리 사용되고 있다. 확률적 경사 하강 알고리즘으로 심층 신경망을 최적화하기 위해서는 훈련 데이터, 모델 그리고 초모수 등이 필요하다. 학습률은 확률적 경사 하강 알고리즘에서 모델의 수렴과 일반화 성능에 있어서 가장 중요한 초모수로 알려져 있다. 일반적으로 그레이디언트 노이즈를 줄이고 알고리즘을 수렴시키기 위해서 훈련 동안 학습률을 축소하는 어닐링이 필요하다고 알려져 있다. 이러한 목적을 위해 학습률 스케줄이나 적응형 학습률 방법에 대한 연구들이 수행되었다. 최근에 많은 애플리케이션에서는 빠른 속도와 초기 초모수 선택의 용이성 때문에 RMSprop이나 Adam과 같이 과거 그레이디언트의 정보를 사용하여 학습률을 결정하는 적응형 학습률 알고리즘이 선호되고 있다. 그러나 이 알고리즘은 훈련 초기에 존재하는 학습률의 높은 분산으로 인해 최적의 설루션에 수렴하지 못하고, 확률적 경사 하강 알고리즘 보다 일반화 성능도 떨어진다는 문제가 보고되었다. 따라서 확률적 경사 하강 알고리즘을 어닐링 하기 위한 종래의 학습률 스케줄 방법들은 여전히 유용하다. 본 연구에서는 기존에 제안된 학습률 스케줄 및 적응형 학습률 방법을 비교하고 평가하는 것을 목적으로 한다. 또한 워밍업을 적용한 새로운 시그모이드 감쇠 스케줄을 제안한다. 정량적 평가에 의하면 제안된 방법은 다양한 도메인과 네트워크에서 좋은 성능을 나타낸다. 마지막으로, 본 연구에서 제안된 방법은 피부암 진단에 필요한 자동 흑색종 분할 문제에서 다른 방법보다 우수한 성능을 보여준다.
Stochastic gradient descent (SGD) algorithms are often used for the optimization of deep neural networks in a variety of deep learning applications. Using the SGD algorithm to optimize deep neural networks requires training data, models, and hyperparameters. Learning rate is known as the most important hyperparameter in SGD for model convergence and generalization performance. In general, it is known that annealing which is shrinking the learning rate during training is necessary to reduce the gradient noise and converge the algorithm. To this aim, many studies were conducted about the learning rate schedule and adaptive learning rate methods. Recently, due to the high speed and ease of selecting the initial hyperparameters, adaptive learning rate algorithms, such as RMSprop and Adam, are used to determine the learning rate using information from past gradients. However, it has been reported that this algorithm cannot converge into an optimal solution due to the high variance of the learning rate present in the early stages of training, and also the generalization performance is lower than the SGD algorithm. Therefore, the conventional learning rate schedule methods are still useful for annealing the SGD algorithm. The purpose of this work is to compare and evaluate the conventionally proposed learning rate schedule and adaptive learning rate methods. In addition, we propose a new sigmoid decay schedule with the warmup. According to our quantitative evaluation, our proposed method shows good performance in various domains and networks. Finally, the proposed method in this work shows better performance than other methods in the automatic melanoma segmentation problem required for skin cancer diagnosis.