继Transformer后新架构Griffin降生 Google开源大模型新成员CodeGemma RecurrentGemma

2024-11-14

2024年2月，Google推出了 Gemma， 一系列轻量级、先进的开源大模型，这些模型是经常使用创立 Gemini 模型时所经常使用的相反钻研和技术构建的 。

近日，Google发表了 Gemma 家族的首批新增成员，为机器学习开发者裁减了翻新责任的或者性：用于代码补全和生成义务以及指令追随，以及 RecurrentGemma ，用于钻研试验的效率优化架构。

新成员之CodeGemma

为开发者和企业提供的代码补全、生成和聊天应用 Gemma 模型的基础，CodeGemma 为社区带来了弱小而轻量级的编码才干。CodeGemma 模型提供了几个长处：

这张表比拟了 CodeGemma 在单行和多行代码补全义务上与其余相似模型的功能。在技术报告中了解更多消息。

新成员之RecurrentGemma

为钻研人员提供高效、更极速的推断，在更高的批次大小下RecurrentGemma 是一个在技术上共同的模型，应用 循环神经网络和本地留意力来提高内存效率 。只管 RecurrentGemma 到达了与 Gemma 2B 模型相似的基准分数功能，但其共同的架构带来了几个长处：

这张图展现了 RecurrentGemma 如何在序列长度参与时坚持其采样速度，而像 Gemma 这样基于 Transformer 的模型则随着序列变得更长而减慢。

RecurrentGemma基于新架构Griffin

RecurrentGemma是基于一种全新 Griffin 架构的模型，其功能优于 Transformers。

在多个规模上，Griffin 在控制测试中的基准得分均优于 Transformers 基线，无论是在不同参数规模下的 MMLU得分，还是在许多基准测试中的平均得分。该架构在推断长文本时还提供了效率长处，具备更快的推断速度和更低的内存经常使用率。以下是 Huggingface 上颁布了这个模型的 2B 版本的功能：

参考：

Griffin论文：

原文链接：

<<2024年大模型LLM还有哪些可钻研的方向听听大佬怎样说

言语模型常识编辑的鲁棒性钻研>>

继Transformer后新架构Griffin降生 Google开源大模型新成员CodeGemma RecurrentGemma

新成员之CodeGemma

新成员之RecurrentGemma

RecurrentGemma基于新架构Griffin

您可能还会对下面的文章感兴趣：

随便看看