代码智能实现和生成技术再更新 Google推出开源代码大模型CodeGemma AI编程新纪元

2024-11-15

CodeGemma模型概述

CodeGemma是基于Google DeepMind的Gemma模型系列（Gemma Team et al., 2024）开发的一系列开明代码模型。这些模型承袭了Gemma预训练模型的基础，并在此基础上进一步训练，经常使用的数据关键是代码，训练数据量在5000亿到1000亿token之间。CodeGemma模型在代码实现和生成义务中到达了最先进的功能，同时在大规模状况下仍坚持弱小的了解和推理才干。

CodeGemma颁布了三种模型：一个7B的代码预训练模型，一个7B的指令调优代码模型，以及一个专门为代码填充和开明式生成训练的2B模型。这些模型的系谱在文中的图1中有所展现。

在颁布的第一个版本（v1.0）中，包含了一切三种模型，随后在一个月后的第二个版本（v1.1）中，对预训练的2B模型和指令调优的7B模型启动了更新。假设速度不是关键思考起因，倡导经常使用v1.1版本，由于它在品质上有较好的平衡优化。

模型训练和数据处置

1. 数据处置和预训练

一切CodeGemma v1.0模型都是在关键由英语网页文档、数学和代码组成的5000亿token数据上进一步训练的。2B v1.1模型则在1万亿token上训练。一切2B模型都是100%经常使用代码训练的，而7B模型则是80%代码和20%人造言语的混合。咱们的代码语料库起源于地下可用的代码仓库。数据集经过去重和过滤，以移除评价代码中的污染以及某些团体和敏感数据。除了Gemma的处置步骤外，咱们还为代码数据执行了额外的预训练步骤。

2. 指令调优

指令调优的7B v1.1模型与其1.0版本不同之处在于经常使用的强化学习算法（基于Gemma 1.1）和分解数据生成的详细细节。这些模型都遵照以下的普通方向。

为了提高模型与事实环球运行的分歧性，咱们经过将代码仓库中最相关的源文件独特定位，并尽最大抵力将它们分组到相反的训练示例中来创立训练示例。详细来说，咱们驳回了两种启示式方法：基于依赖图的打包和基于单元测试的词汇打包。

为了构建依赖图，咱们首先按仓库对文件启动分组。关于每个源文件，咱们从顶部N行中提取导入，并执行后缀婚配以确定在仓库结构中最长的婚配门路。咱们确定文件之间的边缘关键性（一种启示式测量），并移除不关键的边缘以打破循环依赖（在Python中经常出现）。而后，咱们计算图中一切对的最短门路，其中较短的距离示意文件相关更强。最后，咱们经常使用拓扑排序对文件图启动线性化，选用基于到已排序节点的最小距离的下一个无父节点，并经常使用字典顺序来打破平局。

模型功能评价

1. 代码实现和生成义务的功能

CodeGemma模型在代码实现和生成义务中体现出色。特意是，2B预训练模型在代码实现义务中体现突出，其低提前个性关于须要极速照应的用例十分关键。此外，7B模型在代码生成义务中也显示了弱小的功能，尤其是在多言语代码生成方面，如BabelCode测试所示（表4）。这些模型在HumanEval和Mostly Basic Python Problems基准测试中的体现（表3）进一步验证了其优越性。

2. 人造言语了解才干

CodeGemma模型保管了基础Gemma模型的人造言语处置才干。在人造言语了解方面，CodeGemma的体现优于多个同类模型，例如Mistral 7B和Llama-2 13B模型。这一长处体如今多团体造言语处置基准测试中，如BoolQ和PIQA（Clark et al., 2019; Bisk et al., 2019）。这些才干使得CodeGemma模型不只在代码相关义务，也在须要了解和生成人造言语的义务中体现出色。

3. 数学推理才干

CodeGemma模型在数学推理才干方面也显示出出色的功能。经过在多个数学数据集上启动训练，如Math>

实践运行和部署

CodeGemma模型的设计使其十分适宜在实践运行和部署中经常使用。2B模型由于其极速的代码填充才干，特意适宜集成到集成开发环境（IDE）和本地环境中。这一模型在内存和照应速度方面的优化，使其成为开发者的有力工具。

7B模型则因其在代码义务和人造言语了解义务中的弱小体现，更适宜部署在托管环境中，如云计算平台。这些模型在处置大规模和复杂的代码生成和了解义务时，能够提供高品质的输入。

在部署这些模型时，须要留意的是，应选用适宜的输入中止战略以顺应部署环境。例如，可以经常使用生成FIM哨兵令牌的方法来截断输入，以确保生成的代码品质和分歧性。

总之，CodeGemma模型系列经过在代码生成、人造言语了解和数学推理等多个方面的出色体现，为各种实践运行场景提供了弱小的允许。

模型的长处和局限性

1. 模型的长处

CodeGemma模型在代码生成和了解方面展现出了清楚的长处。这些模型不只在人造言语处置义务中坚持了弱小的功能，而且在数学推理方面也显示出了出色的才干。例如，CodeGemma 7B模型在多种编程言语的代码生成义务中体现优秀，这一点在BabelCode的评价中获取了验证（见表4）。此外，这些模型在处置大规模代码数据集时，能够有效地启动代码补全和生成，特意是2B预训练模型在低提前场景下体现出了极高的效率，这关于集成开发环境（IDEs）等运行场景十分关键。

2. 模型的局限性

虽然CodeGemma模型在多个方面体现出色，但它们也存在一些局限性。首先，虽然7B模型在代码义务中体现优秀，但其在推理时须要较大的内存，这或者限度了它们在资源受限的环境中的运行。此外，依据Gemma团队的报告，一切模型都在处置某些特定类型的代码或言语结构时存在必定的局限性，尤其是在跨文件代码依赖相关的智能补全方面。此外，虽然模型在数学识题处置方面体现良好，但在一些高难度的数学识题上，模型的处置才干仍有待提高。

本文转载自，作者：

<<OpenAI开源SimpleQA！轻松检测校准大模型才干刚刚

大模型训练的GPU联手CPU显存优化剖析方法 GPU和CPU如何混合训练>>