在 Vision Transformer CIFAR10 数据集上训练 ViT

2024-11-15

在减少了类标志之后，咱们依然须要减少位置编码局部。transforms操作在一系列标志上，它们对序列顺序熟视无睹。为了确保在训练中参与顺序，咱们手动减少位置编码。由于咱们解决的是大小为 model_dim 的向量，咱们不能便捷地减少顺序 [0, 1, 2, …]，位置应该是模型固有的，这就是为什么咱们经常使用所谓的位置编码。这个向量可以手动设置或训练。在咱们的例子中，咱们将便捷地训练一个位置嵌入，它只是一个大小为 (1, n_patches+1, model_dim) 的向量。咱们将这个向量减少到完整的补丁序列中，以及类标志。如前所述，为了计算模型的输入，咱们便捷地对嵌入的第一个标志（类标志）运行一个带有 SoftMax 层的 MLP，以取得类别的对数几率。