继Transformer后新架构Griffin降生 Google开源大模型新成员CodeGemma RecurrentGemma

2024年2月,Google推出了 Gemma, 一系列轻量级、先进的开源大模型,这些模型是经常使用创立 Gemini 模型时所经常使用的相反钻研和技术构建的

近日,Google发表了 Gemma 家族的首批新增成员,为机器学习开发者裁减了翻新责任的或者性:用于代码补全和生成义务以及指令追随,以及 RecurrentGemma ,用于钻研试验的效率优化架构。

新成员之CodeGemma

为开发者和企业提供的代码补全、生成和聊天应用 Gemma 模型的基础,CodeGemma 为社区带来了弱小而轻量级的编码才干。CodeGemma 模型提供了几个长处:

这张表比拟了 CodeGemma 在单行和多行代码补全义务上与其余相似模型的功能。在技术报告中了解更多消息。

新成员之RecurrentGemma

为钻研人员提供高效、更极速的推断,在更高的批次大小下RecurrentGemma 是一个在技术上共同的模型,应用 循环神经网络和本地留意力来提高内存效率 。只管 RecurrentGemma 到达了与 Gemma 2B 模型相似的基准分数功能,但其共同的架构带来了几个长处:

这张图展现了 RecurrentGemma 如何在序列长度参与时坚持其采样速度,而像 Gemma 这样基于 Transformer 的模型则随着序列变得更长而减慢。

RecurrentGemma基于新架构Griffin

RecurrentGemma是基于一种全新 Griffin 架构的模型,其功能优于 Transformers。

在多个规模上,Griffin 在控制测试中的基准得分均优于 Transformers 基线,无论是在不同参数规模下的 MMLU得分,还是在许多基准测试中的平均得分。该架构在推断长文本时还提供了效率长处,具备更快的推断速度和更低的内存经常使用率。以下是 Huggingface 上颁布了这个模型的 2B 版本的功能:

参考: ​ ​​ ​

Griffin论文: ​ ​​ ​

原文链接:​ ​​ ​

您可能还会对下面的文章感兴趣: