1、什么是学习率?

学习率是指导我们在梯度下降法中,如何使用损失函数的梯度调整网络权重的超参数。其数学表达式如下所:

new_weight = old_weight - learning_rate * gradient

2、学习率的数学本质

如上述公式,我们可以看到,学习率类似于微积分中的dx,所以学习率也被称为步长。

3、学习率对损失值甚至深度网络的影响?

学习率如果过大,可能会使损失函数直接越过全局最优点,此时表现为loss过大或者为nan。学习率如果过小,损失函数的变化速度很慢,会大大增加网络的收敛复杂度,并且很容易被困在局部最小值或者鞍点

4、学习率衰减机制

最理想的学习率不是固定值,而是一个随着训练次数衰减的变化的值,也就是在训练初期,学习率比较大,随着训练的进行,学习率不断减小,直到模型收敛。常用的衰减机制有:

https://www.jianshu.com/p/125fe2ab085b

5、Pytorch必须掌握的的4种学习率衰减策略

https://zhuanlan.zhihu.com/p/93624972