CLIP PyTorch 经常使用 从头开局构建

层归一化是深度学习中十分经常出现的概念,这不是我第一次性解释它,但让咱们再次解释一下,咱们有一个网络的输入,其中蕴含来自不同类别或特色的数据,由于在每个训练周期中批次会变动,数据的散布也会变动,在一批中散布或许在[0,2)范围内,而在下一批中它或许有样本散布在[0,100]范围内。在训练环节中数据散布的变动被称为协变量偏移。由于输入的猛烈变动,输入也会变动,损失也会变动,假设损失猛烈变动,那么在反向流传环节中权重将以更高的幅度降级,造成梯度不平滑。简而言之,归一化输入将限度其在整个训练批次中的散布,因此,损失不会有猛烈变动,将造成更平滑的梯度和更快的训练,协助模型更多地关注学习特色。

您可能还会对下面的文章感兴趣: