在 Vision Transformer CIFAR10 数据集上训练 ViT
在减少了类标志之后,咱们依然须要减少位置编码局部。transforms操作在一系列标志上,它们对序列顺序熟视无睹。为了确保在训练中参与顺序,咱们手动减少位置编码。由于咱们解决的是大小为 model_dim 的向量,咱们不能便捷地减少顺序 [0, 1, 2, …],位置应该是模型固有的,这就是为什么咱们经常使用所谓的位置编码。这个向量可以手动设置或训练。在咱们的例子中,咱们将便捷地训练一个位置嵌入,它只是一个大小为 (1, n_patches+1, model_dim) 的向量。咱们将这个向量减少到完整的补丁序列中,以及类标志。如前所述,为了计算模型的输入,咱们便捷地对嵌入的第一个标志(类标志)运行一个带有 SoftMax 层的 MLP,以取得类别的对数几率。