首页>TAG列表
多token预测 Meta等最新钻研 优化大模型推理效率

多token预测 Meta等最新钻研 优化大模型推理效率

GPT,4、Gemini系列、Llama,3等开闭源大模型,理论经常使用的是下一个token预测,Next,tokenPrediction,的损失函数启动预训练,这种方法只管弱小,但有很多局限性,例如...

再战Transformer!原作者带队的Mamba 新架构训练效率大幅优化 2来了

再战Transformer!原作者带队的Mamba 新架构训练效率大幅优化 2来了

自2017年被提出以来,Transformer曾经成为AI大模型的干流架构,不时稳居言语建模方面C位,但随着模型规模的裁减和须要解决的序列不时变长,Transformer的局限性也逐渐凸显,一个很清楚...

Packing LLM 疑问及优化 长序列 Attention Sample 训练的

Packing LLM 疑问及优化 长序列 Attention Sample 训练的

一、背景之前看过局部Megatron,LM的源码,也详细剖析过对应的>,SamplePacking中有很多可以探讨的技术点,比如Attention的成功和优化,Sample的组合及负载平衡疑问,有...

浅谈

浅谈

当天给大家带来知乎朋友@ybq一篇对于如何启动畛域模型训练的文章,关键内容是对post,pretrain阶段启动剖析,后续的Alignment阶段就先不提了,留意好老生常谈的,数据品质,和,数据多样性...

Stars 多模态大言语模型综述 8.3K 严重更新

Stars 多模态大言语模型综述 8.3K 严重更新

去年6月底,咱们在arXiv上颁布了业内首篇多模态大言语模型畛域的综述,ASurveyonMultimodalLargeLanguageModels,,系统性梳理了多模态大言语模型的停顿和开展方向,目...

ECCV 2024

ECCV 2024

论文一作兰宇时为南洋理工大学,NTU,博士生,导师为ChenChangeLoy,本科毕业于北京邮电大学,目前重要钻研兴味为基于神经渲染的3D生成模型、3D重建与编辑,在ECCV2024中,来自南洋理工...