DeepMind推出Gemma 2 咱们一同聊聊Google 技术报告

2024-11-14

引言：大规模言语模型的开展与应战

近年来，大规模言语模型（LLMs）在言语了解、生成和推理方面展现出了弱小的才干。随着模型规模的始终扩展，新的才干也逐渐浮现。最新的大型模型不只在推理基准测试上到达了史无前例的性能，还展现了多模态和多言语的才干，甚至能处置超越1M个令牌的高低文长度。

虽然小规模模型的性能也在迅速优化，这些优化重要来自于参与训练长度。但是，这种方法与数据集大小的增长呈对数相关，最新的小型模型须要高达15T令牌才干将艺术形态提高不到1-2%。

这些继续的改良标明，小型模型依然存在未充沛训练的疑问。在本上班中，咱们探求了提高小型模型性能的代替方法，而不只仅是参与训练长度。一种处置打算是改良网络在每个训练步骤中接纳的消息品质，经过交流下一个令牌预测义务来成功，驳回更丰盛的指标。咱们驳回了常识蒸馏方法，这种方法经常被用来缩小小型模型的训练期间，经过提供更丰盛的梯度。

此外，咱们还应用了几种已知的Transformer修正技术，例如交替经常使用全局和部分留意力层，以及分组查问留意力机制。经过这些技术的运行，咱们的模型在与规模相当的开明模型相比，清楚优化了性能，并且在某些状况下，甚至能与规模是其两倍的模型竞争。

总的来说，这些技术的运行不只优化了小型模型的性能，也为大规模言语模型的开展提供了新的或者性。但是，这些模型的测试不能笼罩一切运行场景，因此在部署或经常使用之前，一切用户都应启动严厉的安保测试。

论文题目、机构、论文链接和名目地址

1. 论文题目:Gemma 2: Improving Open Language Models at a Practical Size

2. 机构:Google DeepMind

3. 论文链接:

模型架构与技术翻新

1. Gemma 2模型的基本架构

Gemma 2模型承袭了Gemma系列模型的基本架构，驳回了解码器仅Transformer架构（Vaswani et al., 2017）。这种架构特意强调了经常使用旋转位置嵌入（RoPE）（Su et al., 2021）和近似的GeGLU非线性激活函数（Shazeer, 2020）。在Gemma 2中，与Gemma 1相比，驳回了更深的网络档次结构，并在每个Transformer子层中经常使用了RMSNorm（Zhang and Sennrich, 2019）启动输入和输入的规范化，以稳固训练环节。

2. 常识蒸馏与训练数据的经常使用

在Gemma 2的开发中，驳回了常识蒸馏技术（Hinton et al., 2），这是一种经过大模型（老师模型）来训练小模型（在校生模型）的方法。详细来说，经过模拟老师模型对每个令牌的概率散布，来训练在校生模型，而不是便捷的下一个令牌预测。这种方法可以给小模型提供更丰盛的梯度消息，从而在不参与训练令牌数量的状况下，清楚提高模型性能。例如，Gemma 2的27B模型在13万亿令牌上启动训练，而9B和2B模型区分在8万亿和2万亿令牌上启动训练。

3. 改良的Transformer技术：部分-全局留意力与群组查问留意力

Gemma 2模型在其Transformer层中引入了部分滑动窗口留意力和全局留意力的交替经常使用（Beltagy et al., 2020a; Luong et al., 2），这种设计旨在提高模型处置长序列数据的才干。此外，Gemma 2还驳回了群组查问留意力（Grouped-Query Attention, GQA）机制（Ainslie et al., 2023），该机制经过将留意力头分组来提高推理时的速度，同时坚持下游义务性能。这些技术的运行使得Gemma 2在多项智能化基准测试和人类评价中体现杰出，相关于等同规模的开明模型清楚优化了性能。

训练环节与数据处置

1. 经常使用的数据类型与规模

2. 数据过滤与安保性思考

为了确保数据的安保性和实用性，咱们驳回了与Gemma 1相反的数据过滤技术。详细来说，咱们过滤了预训练数据集以缩小不须要或不安保的表白，过滤掉某些团体消息或其余敏感数据，从咱们的预训练数据混合中去除评价集的污染，并经过最小化敏感输入的流传来缩小背诵的风险。

3. 计算基础设备与优化技术

咱们的模型是在TPUv4、TPUv5e和TPUv5p上训练的。详细来说，2B模型在TPUv5e的2x16x16性能上训练，总共经常使用了512个芯片；9B模型在TPUv4的8x16x32性能上训练，经常使用了4096个芯片；而27B模型则在TPUv5p的8x24x32性能上训练，经常使用了6144个芯片。咱们还经常使用了相似于ZeRO-3的技术进一步分片优化器形态。关于超越单个pod的规模，咱们在数据核心网络上口头数据正本缩小，经常使用了Pathways方法和单控制器编程范式。此外，咱们还经常使用了GSPMD分区器启动训练步骤计算，以及MegaScale XLA编译器。

模型性能与评价

1. 预训练与指令调优模型的性能

预训练模型和指令调优模型（IT模型）在多个智能化基准测试和人类评价中展现了清楚的性能。例如，Gemma 2模型在Chatbot Arena评价中体现优秀，其27B模型的Elo评分高于多个竞争模型。此外，这些模型在处置多轮对话和遵照指令的才干上也有所优化，显示出与之前版本相比的清楚改良。

2. 人类评价与智能化基准测试

Gemma 2模型在多种畛域启动了宽泛的评价，包含智能化基准测试和人类偏好评价。在智能化基准测试中，Gemma 2的27B模型与其余大小相近的模型相比体现杰出，甚至与训练期间更长、参数量更大的模型竞争。在人类评价方面，Gemma 2模型在Chatbot Arena中的体现尤为突出，其中27B模型的Elo评分超越了多个竞争模型。

3. 常识蒸馏对小模型性能的影响

常识蒸馏是一种有效的技术，可以清楚优化小模型的性能。经过经常使用大模型作为老师模型，小模型可以在训练环节中学习到更丰盛的消息，从而提高其性能。例如，Gemma 2的2B和9B模型经过常识蒸馏训练，与以往版本相比，在多个基准测试中显示出了10%的性能优化。这证实了即使在相反的训练代币数量下，常识蒸馏也能清楚提高模型的品质和成果。

安保性、隐衷与责任

1. 模型的隐衷包全与数据安保

在大型言语模型的开发和部署环节中，隐衷包全和数据安保是无法或缺的思考起因。Gemma 2模型在训练阶段驳回了多种数据过滤技术，以缩小不宿愿或不安保的表白的风险。特意是，它们过滤掉了某些团体消息或其余敏感数据，以防止这些数据在模型训练环节中被不当经常使用。此外，为了缩小模型输入中的敏感消息，Gemma 2还实施了严厉的输入监控机制，确保不会暴露用户的公家消息。

2. 安保政策与训练时的缓解措施

Gemma 2的开发团队采取了多项措施来确保模型的安保性，包含在模型的训练和微调阶段驳回安保战略缓和解措施。这些措施旨在防止模型生成有害内容，例如儿童性迫害和盘剥内容、揭发或者造成损伤的团体身份消息、恼恨舆论和骚扰以及风险或恶意内容。经过这些综合性的安保战略，Gemma 2能够在多种经常使用场景中提供更为安保的运行保证。

3. 对模型潜在风险的评价与治理

关于Gemma 2模型的潜在风险，开发团队启动了片面的评价和治理。这包含经常使用外部基准评价模型的安保性能，以及运转保证评价来了解模型或者形成的损伤。例如，Gemma 2在多个安保基准上的体现优于先前的模型，特意是在儿童安保内容上的违规率清楚降落。此外，团队还评价了模型在动物、喷射性和核风险方面的常识水平，确保模型不会被用于不当用途。

经过这些综合性的措施，Gemma 2不只在性能性能上有所优化，同时也在安保性、隐衷包全和责任性方面设立了新的规范，确保技术的踊跃影响最大化，同时降落潜在的负面影响。

本文转载自，作者：

<<Multi

智能化决策与预测让企业轻松赢利！ AI如何扭转环球>>