谷歌颁布大模型数据挑选方法效率优化13倍算力降落10倍

2024-11-15

随着GPT-4o、Gemini等多模态大模型的产生，对训练数据的需求呈指数级回升。无论是人造言语文本了解、计算机视觉还是语音识别，经常使用精心标注的数据集能带来清楚的功能优化，同时大幅缩小所需的训练数据量。

但目前少数模型的数据处置流程严重依赖于人工挑选，不只费时、费劲并且老本十分高，难以应答大规模数据集的需求。

因此，谷歌Deepmind的钻研人员提出了翻新数据挑选方法JEST，经过联结选用数据批次来减速多模态大模型的学习效率。与目前最先进的算法相比，JEST可以将大模型的数据挑选效率优化13倍，算力需求降落10倍。

论文地址：

JEST三种评分战略

传统的数据标注方法理论针对单个数据点启动操作，但一个批次数据的品质不只取决于其外部各个数据点的独立品质，还遭到它们组合模式的影响。那些难解的负样本，也就是标签虽不同却严密汇集在一同的点，被证实比容易处置的例子更能提供有效的学习信号。

而JEST算法可以从更大的超级批次中高效地挑选出关系性高的子批次。与传统的优先级采样方法不同， JEST不是给每个独自的例子打分，而是对整个子批次启动评分，依据这些批次级别的分数启动采样 。

JEST的外围在于经常使用模型为基础的评分函数，这些函数结合了学习者模型的损失或预训练参考模型的损失，并提供硬学习者、易参考和可学习性三种评分战略。

硬学习者战略经过计算子批次在学习者模型下的高损失，选用那些模型尚未把握的样本，以防止糜费资源在已知消息上。然而，关于大而错乱的数据集，这种战略或者大失所望，由于会适度采样噪声样本。

易参考战略恰恰同样，它优先选用对预训练参考模型而言比拟的数据，损失较低的样本。这种战略在多模态学习中已被成功运行，用于识别高品质的例子，但缺陷是过于依赖参考模型的选用，或者不实用于大规模计算估算。

可学习性战略则合了前两种方法的好处，经过计算学习者模型和参考模型的损失之差，选用那些既未被学习者把握又对参考模型相对便捷的样本。

这种战略既能防止噪声数据的搅扰，又能保障选取的数据是模型可以学习，因此在大规模学习中即使对单个例子启动优先级排序也能减速训练环节 。

模型近似和多分辨率训练

为了进一步增强JEST算法的功能以及对算力需求的降落，还经常使用了模型近似和多分辨率训练两种方法。

模型近似重要经过两种模式成功：一是降落图像分辨率，二是缩小模型层的计算，协助大模型在坚持模型功能的同时，清楚缩小每次迭代所需的算力需求。

降落图像分辨率是一种直观的近似方法。在传统的高分辨率图像处置中，模型须要对每一个像素点启动剖析和学习，这无疑参与了算力累赘。

而在JEST算法中，经过将图像分辨率降落，缩小了模型须要处置的像素数量，从而降落了单次迭代的计算老本，并且对模型的功能影响很小。

缩小模型层的计算则是另一种有效的近似手腕。深度学习模型理论蕴含多个档次，每个档次都或者带来计算量的参与。JEST算法经过在评分阶段经常使用简化的模型结构，缩小了模型在每次迭代中的算力负荷，也不会影响模型最终的训练结果。

多分辨率训练准许模型在不同的分辨率下处置数据，从而在训练环节中成功更高的灵敏性和效率。

在多分辨率训练中，模型首先在较低分辨率下对数据启动初步处置，这有助于极速捕捉数据的大抵特色。而后，模型在较高分辨率下对数据启动更粗疏的剖析，以提取更精细的特色消息。这种分阶段的处置模式不只提高了模型对数据的了解才干，也使得模型能够在不同档次上启动有效的学习。

此外，多分辨率训练还有助于提高模型的泛化才干。经过在不同分辨率下训练，模型能够学习到不同尺度的特色，这使得模型在面对不同尺寸和分辨率的输入数据时，都能够体现出良好的顺应性。

为了测试JEST算法的有效性，在ImageNet、COCO等数据集上，对图像分类、零样本学习、图像到文本的检索和文本到图像检索等义务上启动了综合测试。

结果显示，JEST在多个义务上都取得了清楚的数据挑选效率，例如，当过滤90%的数据时， JEST仅需经常使用6700万样本即可到达传统方法经常使用30亿样本的功能水平，相当于效率优化13倍和算力降落了10倍 ，同时还能协助大模型优化大概6%的功能。

原文链接:

谷歌颁布大模型数据挑选方法 效率优化13倍 算力降落10倍