首页>TAG列表
Packing LLM 疑问及优化 长序列 Attention Sample 训练的

Packing LLM 疑问及优化 长序列 Attention Sample 训练的

一、背景之前看过局部Megatron,LM的源码,也详细剖析过对应的>,SamplePacking中有很多可以探讨的技术点,比如Attention的成功和优化,Sample的组合及负载平衡疑问,有...