CLIP PyTorch 经常使用从头开局构建

2024-11-15

层归一化是深度学习中十分经常出现的概念，这不是我第一次性解释它，但让咱们再次解释一下，咱们有一个网络的输入，其中蕴含来自不同类别或特色的数据，由于在每个训练周期中批次会变动，数据的散布也会变动，在一批中散布或许在[0,2)范围内，而在下一批中它或许有样本散布在[0,100]范围内。在训练环节中数据散布的变动被称为协变量偏移。由于输入的猛烈变动，输入也会变动，损失也会变动，假设损失猛烈变动，那么在反向流传环节中权重将以更高的幅度降级，造成梯度不平滑。简而言之，归一化输入将限度其在整个训练批次中的散布，因此，损失不会有猛烈变动，将造成更平滑的梯度和更快的训练，协助模型更多地关注学习特色。