Transformer如今曾经成为大型言语模型,LLM,和其余序列处置运行程序的关键架构,但是,它们固有的二次方计算复杂性成为了将Transformer裁减至超长序列时的渺小阻碍,清楚参与了老本,这引...