DeepMind推出Gemma 2 咱们一同聊聊Google 技术报告
引言:大规模言语模型的开展与应战
近年来,大规模言语模型(LLMs)在言语了解、生成和推理方面展现出了弱小的才干。随着模型规模的始终扩展,新的才干也逐渐浮现。最新的大型模型不只在推理基准测试上到达了史无前例的性能,还展现了多模态和多言语的才干,甚至能处置超越1M个令牌的高低文长度。
虽然小规模模型的性能也在迅速优化,这些优化重要来自于参与训练长度。但是,这种方法与数据集大小的增长呈对数相关,最新的小型模型须要高达15T令牌才干将艺术形态提高不到1-2%。
这些继续的改良标明,小型模型依然存在未充沛训练的疑问。在本上班中,咱们探求了提高小型模型性能的代替方法,而不只仅是参与训练长度。一种处置打算是改良网络在每个训练步骤中接纳的消息品质,经过交流下一个令牌预测义务来成功,驳回更丰盛的指标。咱们驳回了常识蒸馏方法,这种方法经常被用来缩小小型模型的训练期间,经过提供更丰盛的梯度。
此外,咱们还应用了几种已知的Transformer修正技术,例如交替经常使用全局和部分留意力层,以及分组查问留意力机制。经过这些技术的运行,咱们的模型在与规模相当的开明模型相比,清楚优化了性能,并且在某些状况下,甚至能与规模是其两倍的模型竞争。
总的来说,这些技术的运行不只优化了小型模型的性能,也为大规模言语模型的开展提供了新的或者性。但是,这些模型的测试不能笼罩一切运行场景,因此在部署或经常使用之前,一切用户都应启动严厉的安保测试。
论文题目、机构、论文链接和名目地址
1. 论文题目:Gemma 2: Improving Open Language Models at a Practical Size
2. 机构:Google DeepMind
3. 论文链接:
模型架构与技术翻新
1. Gemma 2模型的基本架构
Gemma 2模型承袭了Gemma系列模型的基本架构,驳回了解码器仅Transformer架构(Vaswani et al., 2017)。这种架构特意强调了经常使用旋转位置嵌入(RoPE)(Su et al., 2021)和近似的GeGLU非线性激活函数(Shazeer, 2020)。在Gemma 2中,与Gemma 1相比,驳回了更深的网络档次结构,并在每个Transformer子层中经常使用了RMSNorm(Zhang and Sennrich, 2019)启动输入和输入的规范化,以稳固训练环节。
2. 常识蒸馏与训练数据的经常使用
在Gemma 2的开发中,驳回了常识蒸馏技术(Hinton et al., 2),这是一种经过大模型(老师模型)来训练小模型(在校生模型)的方法。详细来说,经过模拟老师模型对每个令牌的概率散布,来训练在校生模型,而不是便捷的下一个令牌预测。这种方法可以给小模型提供更丰盛的梯度消息,从而在不参与训练令牌数量的状况下,清楚提高模型性能。例如,Gemma 2的27B模型在13万亿令牌上启动训练,而9B和2B模型区分在8万亿和2万亿令牌上启动训练。
3. 改良的Transformer技术:部分-全局留意力与群组查问留意力
Gemma 2模型在其Transformer层中引入了部分滑动窗口留意力和全局留意力的交替经常使用(Beltagy et al., 2020a; Luong et al., 2),这种设计旨在提高模型处置长序列数据的才干。此外,Gemma 2还驳回了群组查问留意力(Grouped-Query Attention, GQA)机制(Ainslie et al., 2023),该机制经过将留意力头分组来提高推理时的速度,同时坚持下游义务性能。这些技术的运行使得Gemma 2在多项智能化基准测试和人类评价中体现杰出,相关于等同规模的开明模型清楚优化了性能。
训练环节与数据处置
1. 经常使用的数据类型与规模
2. 数据过滤与安保性思考
为了确保数据的安保性和实用性,咱们驳回了与Gemma 1相反的数据过滤技术。详细来说,咱们过滤了预训练数据集以缩小不须要或不安保的表白,过滤掉某些团体消息或其余敏感数据,从咱们的预训练数据混合中去除评价集的污染,并经过最小化敏感输入的流传来缩小背诵的风险。
3. 计算基础设备与优化技术
咱们的模型是在TPUv4、TPUv5e和TPUv5p上训练的。详细来说,2B模型在TPUv5e的2x16x16性能上训练,总共经常使用了512个芯片;9B模型在TPUv4的8x16x32性能上训练,经常使用了4096个芯片;而27B模型则在TPUv5p的8x24x32性能上训练,经常使用了6144个芯片。咱们还经常使用了相似于ZeRO-3的技术进一步分片优化器形态。关于超越单个pod的规模,咱们在数据核心网络上口头数据正本缩小,经常使用了Pathways方法和单控制器编程范式。此外,咱们还经常使用了GSPMD分区器启动训练步骤计算,以及MegaScale XLA编译器。
模型性能与评价
1. 预训练与指令调优模型的性能
预训练模型和指令调优模型(IT模型)在多个智能化基准测试和人类评价中展现了清楚的性能。例如,Gemma 2模型在Chatbot Arena评价中体现优秀,其27B模型的Elo评分高于多个竞争模型。此外,这些模型在处置多轮对话和遵照指令的才干上也有所优化,显示出与之前版本相比的清楚改良。
2. 人类评价与智能化基准测试
Gemma 2模型在多种畛域启动了宽泛的评价,包含智能化基准测试和人类偏好评价。在智能化基准测试中,Gemma 2的27B模型与其余大小相近的模型相比体现杰出,甚至与训练期间更长、参数量更大的模型竞争。在人类评价方面,Gemma 2模型在Chatbot Arena中的体现尤为突出,其中27B模型的Elo评分超越了多个竞争模型。
3. 常识蒸馏对小模型性能的影响
常识蒸馏是一种有效的技术,可以清楚优化小模型的性能。经过经常使用大模型作为老师模型,小模型可以在训练环节中学习到更丰盛的消息,从而提高其性能。例如,Gemma 2的2B和9B模型经过常识蒸馏训练,与以往版本相比,在多个基准测试中显示出了10%的性能优化。这证实了即使在相反的训练代币数量下,常识蒸馏也能清楚提高模型的品质和成果。
安保性、隐衷与责任
1. 模型的隐衷包全与数据安保
在大型言语模型的开发和部署环节中,隐衷包全和数据安保是无法或缺的思考起因。Gemma 2模型在训练阶段驳回了多种数据过滤技术,以缩小不宿愿或不安保的表白的风险。特意是,它们过滤掉了某些团体消息或其余敏感数据,以防止这些数据在模型训练环节中被不当经常使用。此外,为了缩小模型输入中的敏感消息,Gemma 2还实施了严厉的输入监控机制,确保不会暴露用户的公家消息。
2. 安保政策与训练时的缓解措施
Gemma 2的开发团队采取了多项措施来确保模型的安保性,包含在模型的训练和微调阶段驳回安保战略缓和解措施。这些措施旨在防止模型生成有害内容,例如儿童性迫害和盘剥内容、揭发或者造成损伤的团体身份消息、恼恨舆论和骚扰以及风险或恶意内容。经过这些综合性的安保战略,Gemma 2能够在多种经常使用场景中提供更为安保的运行保证。
3. 对模型潜在风险的评价与治理
关于Gemma 2模型的潜在风险,开发团队启动了片面的评价和治理。这包含经常使用外部基准评价模型的安保性能,以及运转保证评价来了解模型或者形成的损伤。例如,Gemma 2在多个安保基准上的体现优于先前的模型,特意是在儿童安保内容上的违规率清楚降落。此外,团队还评价了模型在动物、喷射性和核风险方面的常识水平,确保模型不会被用于不当用途。
经过这些综合性的措施,Gemma 2不只在性能性能上有所优化,同时也在安保性、隐衷包全和责任性方面设立了新的规范,确保技术的踊跃影响最大化,同时降落潜在的负面影响。
本文转载自,作者: