英特尔试验室最新成绩 LLaMA

2024-11-15

随着模型规模的始终扩展，其对计算资源的需求也水涨船高。高昂的内存和计算老本不只限度了LLMs在高功能计算平台之外的运行，也参与了钻研和开发的门槛，这关于资源有限的钻研机构和企业尤其成疑问。在这样的背景下，减小LLMs的大小和计算复杂度显得尤为关键。这可以使LLMs在更宽泛的配件平台上获取运行，包含那些多少钱更廉价、更易取得的设施，从而推进AI技术的遍及和运行。优化模型的计算效率关于环境的可继续性也至关关键，由于计算资源的消耗间接关联到动力经常使用和碳排放。

来自于自英特尔公司的英特尔试验室（Intel Labs）的钻研团队提出了一种有效的方法，他们找到基于LLaMA2-7B的Pareto最优网络架构，经常使用一次性性神经架构搜查（NAS）。他们经过一次性性微调LLaMA2-7B，而后运行基于遗传算法的搜查来找到更小、计算复杂度更低的网络架构。钻研标明，关于某些规范基准义务，预训练的LLaMA2-7B网络过于庞大和复杂。详细来说，他们展现了在简直不影响准确度的状况下，模型大小缩小了1.5倍，吞吐量速度提高了1.3倍。此外，他们的方法比某些剪枝或稠密化技术更有效、更高效。最后他们展现了量化技术是如何补充他们的方法的，以及经常使用量化技术可以进一步缩小他们找到的网络的大小和复杂度。他们置信，他们的上班提供了一种智能创立可以在更廉价、更容易取得的配件平台上经常使用的大型言语模型(LLMs)的方法。

英特尔试验室的钻研动机正是基于优化模型的计算效率的需求，经过高效的神经架构搜查（NAS），LLaMA-NAS旨在找到Pareto最优的网络架构，这些架构在坚持模型功能的同时，能清楚减小模型的大小和计算需求。这不只为LLMs的宽泛部署铺平了路线，也为AI技术的绿色开展提供了或者。

英特尔公司的英特尔试验室（Intel Labs）是一个努力于前沿科技钻研的部门。英特尔试验室以其在计算机迷信和工程畛域的深沉背景而知名，其钻研成绩频频推进着整个行业的提高。在LLaMA-NAS的钻研中，钻研团队仰仗其在深度学习、神经网络优化和配件减速等方面的专业常识，提出了这一翻新的处置打算，展现了英特尔在人工智能畛域的深沉实力和真知灼见。

1.方法

LLaMA-NAS（Large Language Model Architecture Neural Architecture Search）是一种针对大型言语模型（LLMs）的高效神经架构搜查方法。这项上班的方法论基于InstaTune方法，这是一种陈腐的一次性性NAS范例。InstaTune经过使模型的架构变得灵敏，扩展了传统微调环节，准许探求逾越固定结构的更宽泛设计空间。这种灵敏性使得能够顺应不同的义务、数据集和计算资源。InstaTune经过应用现有的模型权重，防止了从头开局训练超级网络的须要。经过将NAS环节嵌入到微调阶段，InstaTune节俭了计算资源，同时确保衍生的子网络特意针对目的义务启动了优化，而不是预训练目的。

图1：运行咱们的方法搜查模型大小的最优子网络架构后的Pareto前沿/ARC-c精度（左）和模型大小/ARC-e精度（右）目的空间。红点示意[1]中预先训练的LLaMA2-7B网络的模型大小和精度。

一次性性神经架构搜查（NAS）

大型言语模型（LLMs）在人造言语处置等畛域取得了庞大的成功。但是这些模型的高内存和计算老本限度了它们在许多配件平台上的运行。传统的模型紧缩方法，如剪枝、稠密化和量化，虽然在必定水平上可以减小模型的大小，但关于LLMs来说并不必定有效。因此，咱们须要一种更高效的方法来优化LLMs的网络架构，以顺应不同配件平台的需求。

LLaMA-NAS（Large Language Model Architecture Neural Architecture Search）的目的是找到Pareto最优的子网络架构，以减小LLMs的大小和计算复杂度，同时坚持模型功能。经过一次性性神经架构搜查（NAS），LLaMA-NAS旨在在功能和资源消耗之间找到一个平衡点，使LLMs能够更宽泛地部署，并在更多运行场景中施展作用。

方法步骤

LLaMA-NAS方法的外围现实是一次性性神经架构搜查（NAS），旨在找到Pareto最优的子网络架构，以减小大型言语模型（LLMs）的大小和计算复杂度，同时坚持模型功能。

图2：运行咱们的方法搜查MMLU义务的最优子网络后的Pareto前沿。左Pareto前沿在模型大小/MMLU精度目的空间中，而右Pareto前沿则在吞吐量中/MMLU精度目的空间。经常使用单个NVIDIA TitanV GPU评价吞吐量，红点示意[1]中预训练的LLaMA2-7B网络的模型大小和精度。

预训练模型微调 ：经常使用预训练的LLaMA2-7B模型作为初始模型。经过微调（如InstaTune）对模型启动优化，以顺应特定义务。微调的目的是在坚持模型功能的同时，调整模型的参数，使其更适宜特定义务。

遗传算法搜查 ：基于遗传算法启动神经架构搜查。在模型大小和准确度的目的空间中，搜查Pareto最优的子网络架构。经过遗传算法的迭代优化，找到更小、计算复杂度更低的网络架构。

子网络评价 ：对搜查到的子网络启动评价，包含准确度、模型大小和计算速度等目的。确定哪些子网络在Pareto前沿上，即在功能和大小之间具备长处。

结果剖析 ：展现搜查到的Pareto最优子网络架构。比拟这些子网络与预训练的LLaMA2-7B网络的功能。

经过LLaMA-NAS，咱们可以找到适用于更廉价、更易取得的配件平台的高效LLMs网络架构，从而推进人工智能技术的遍及和可继续开展。

2.结果

LLaMA-NAS方法经过一次性性神经架构搜查（NAS）找到了Pareto最优的子网络架构，这些架构在坚持模型功能的同时，清楚减小了模型的大小和计算需求。

Pareto最优子网络架构

LLaMA-NAS方法经过遗传算法搜查成功地找到了多个Pareto最优的子网络架构。这些子网络架构在准确度和大小方面都展现出清楚的长处，与预训练的LLaMA2-7B网络相比，它们成功了功能和资源消耗之间的现实平衡。

图3：将咱们的上班运行于模型大小/TruthfulQA MC1精度目的空间中的Alpaca微调LLaMA2-7B后的Pareto前沿。红点示意经常使用来自的权重预训练的LLaMA2-7B网络

应用遗传算法，LLaMA-NAS在模型大小和准确度的目的空间中启动搜查，以找到最优的子网络架构。经过遗传算法的迭代环节，始终优化子网络的结构，以到达更小的模型大小和更低的计算复杂度，同时坚持或优化模型的准确度。

相关于预训练的LLaMA2-7B网络，LLaMA-NAS找到的子网络在不就义准确度的前提下，清楚减小了模型的大小。这些子网络在坚持功能的同时，提高了计算速度，使得模型在实践运行中愈加高效。

子网络长处剖析

在多个规范基准义务中，LLaMA-NAS方法找到的子网络相关于预训练的LLaMA2-7B网络展现出以下长处，子网络在坚持准确度的同时，清楚减小了模型的大小，这关于在内存受限的设施上部署模型尤为关键。子网络提高了计算速度，这关于须要极速照应的运行场景，照实时言语翻译或在线客户服务，具备关键意义。

图4：将咱们的上班运行于模型大小/WinoGrande精度目的空间中的Alpaca微调LLaMA2-7B后的Pareto前沿。红点示意[1]中预先训练的LLaMA2-7B网络的模型大小和精度。

例如，在TruthfulQA义务中，LLaMA-NAS找到的一个子网络相关于预训练的LLaMA2-7B网络，在准确度上提高了3.6%，同时模型大小减小了1.6倍。这一结果不只证实了LLaMA-NAS在优化网络架构方面的有效性，也展现了其在实践运行中的后劲。

图5：在模型大小/精度目的空间中将INT8量化运行于Alpaca微调LLaMA2-7B之前和之后的Pareto前沿。蓝线是量化的（INT8）Pareto前沿，而绿线是原始的非量化的（FP16）Pareto前部，也如图1至图4所示。红点示意[1]中预训练的非量化LLaMA2-7B网络的模型大小和精度。

LLaMA-NAS方法为大型言语模型的高效神经架构搜查提供了一种新路径，使其适用于更宽泛的配件平台，并在功能和资源消耗之间取得了平衡。

3.量化效果剖析

LLaMA-NAS方法不只关注于找到Pareto最优的子网络架构，还思考了这些架构在实践部署中的计算效率。在这一局部，咱们将讨论运行固定点（INT8）量化对子网络功能的影响。

量化方法

量化是一个便捷的环节，可以经常使用现有的多种技术来成功。钻研团队经常使用固定点（INT8）量化来进一步提高Pareto最优子网络的功能。量化后，这些子网络在模型大小和准确度的目的空间中被从新评价。一切解码层中的线性操作都被量化为INT8，而其他层（例如嵌入层）坚持在FP16。量化对准确度的影响很小，但在减小模型大小方面提供了很大的好处。例如，一个未量化的子网络在MMLU义务中的准确度比预训练的LLaMA2-7B网络高1.1%，模型大小缩小了1.5倍，量化后坚持了准确度，但如今变得更小，缩小了2.5倍。

INT8（8位整数）量化是一种经常出现的模型紧缩技术，用于减小模型的内存占用和计算需求。在INT8量化中，模型的权重和激活值被量化为8位整数，从而减小了存储和计算开支。

图6：在搜查环节当选用的网络关于每个义务具备层计数l∈{24，28，32}的概率。概率适用于精度在上60（左）、40（中）和20（右）百分位数的子网络。

量化效果

模型大小减小 ：运行INT8量化后，子网络的模型大小清楚减小。这关于在资源受限的设施上部署LLMs至关关键。

计算速度提高 ：INT8量化可以减速模型的推理速度，由于8位整数的计算更高效。这关于实时运行和大规模部署十分有益。

准确度影响 ：虽然量化理论会对模型的准确度发生必定影响，但在LLaMA-NAS中，咱们留意到量化对准确度的影响很小。例如，在某些子网络中，即使运行了INT8量化，准确度依然坚持不变或仅有庞大变动。

经过运行INT8量化，LLaMA-NAS找到的Pareto最优子网络在坚持功能的同时，清楚减小了模型的大小和计算需求。这为LLMs在更宽泛的配件平台上的部署提供了或者，同时也为环境的可继续性做出了奉献。

4.网络架构特色剖析

LLaMA-NAS方法不只关注于找到Pareto最优的子网络架构，还深化钻研了这些架构的特色。在这一局部，咱们将剖析子网络的层数和两边大小的概率散布，并讨论不同义务对网络架构特色的敏理性。

层数剖析

在大少数状况下，更深的网络层数会造成更高的准确度。这是由于更多的层可以参与模型的学习才干和表白才干。但是，LLaMA-NAS的钻研发现，在某些义务中，如ARC-c、MMLU和TruthfulQA，参与层数并不总是造成更好的功能。这标明预训练的LLaMA2-7B模型对这些义务来说或者过于复杂，有适度参数化的偏差。

不同义务对网络层数的选用显示出不同的敏理性。例如，TruthfulQA义务偏差于选用较少层数的网络，只选用了24层的网络，这或者是由于该义务不须要过于复杂的模型来处置。相比之下，WinoGrande义务则更偏差于选用32层的网络，这或者反映了该义务须要更复杂的模型来捕捉更纤细的言语特色。

图7：在Alpaca微调LLaMA2-7B的模型大小/ARC-c精度空间中启动子网络搜查后，不同两边大小的概率。概率是针对32层子网络的，精度在上20（左）、15（中）和10（右）百分位数。

两边大小剖析

LLaMA-NAS的钻研还发现，在某些子网络中，特定层的两边大小对准确度有清楚影响。例如，在处置ARC-c义务时，选用5504的两边大小而不是11008，可以在某些层上成功与预训练的LLaMA2-7B网络相当的准确度。这标明经过精细调整网络的两边层大小，可以在不就义功能的状况下减小模型的复杂度。

图8：在Alpaca微调LLaMA2-7B的模型大小/MMLU精度空间中启动子网络搜查后，不同两边大小的概率。概率适用于精度在上20（左）、15（中）和10（右）百分位数的24层子网络。

不同义务对两边大小的选用也体现出清楚的差异。在MMLU义务中，早期层（1-16层）更偏差于选用11008的两边大小，而前期层（18-24层）则更偏差于选用5504的两边大小。这或者是由于早期层须要更大的容量来捕捉基本的言语特色，而前期层则须要更小的容量来启动特定义务的细节处置。

图9：在Alpaca微调LLaMA2-7B的模型大小/WinoGrande精度空间中启动子网络搜查后，不同两边大小的概率。概率是针对32层子网络的，精度在上20（左）、15（中）和10（右）百分位数。

LLaMA-NAS的网络架构特色剖析提醒了不同义务对网络设计的需求差异，为更好地优化LLMs提供了指点。这种剖析有助于咱们了解如何依据特定义务的需求来调整网络架构，以成功最佳的功能和效率平衡。

总结

LLaMA-NAS的钻研为大型言语模型（LLMs）的神经架构搜查（NAS）畛域带来了反派性的提高。经过一次性性NAS，LLaMA-NAS成功地在模型功能和计算资源之间找到了一个平衡点，这关于推进LLMs在更宽泛的运行场景中的部署具备关键意义。

LLaMA-NAS经过减小模型大小和计算复杂度，使LLMs能够在资源受限的设施上运转，这关于在边缘计算环境中部署AI模型尤为关键。虽然模型变得愈加轻量，但LLaMA-NAS找到的子网络仍能坚持高准确度，确保了模型的适用性和牢靠性。由于模型的计算需求降落，LLaMA-NAS促成了LLMs的极速部署，特意是在须要实时处置的运行中。

运行前景

LLaMA-NAS使得LLMs能够在各种配件平台上运转，包含那些多少钱更廉价、更易取得的设施，从而扩展了LLMs的潜在用户个体。经过缩小计算资源的需求，LLaMA-NAS为环境可继续性做出了奉献，缩小了动力消耗和碳足迹。LLaMA-NAS为在新兴市场和运行中部署LLMs提供了或者性，包含移动设施、物联网（IoT）和远程地域的运行。

潜在价值

LLaMA-NAS降落了部署LLMs的老本，使得中小企业和低资源环境也能够应用先进的NLP技术。经过使LLMs适用于更宽泛的配件平台，LLaMA-NAS有助于人工智能技术的遍及和教育。LLaMA-NAS的方法为未来的钻研提供了新的方向，激励开发更高效、更智能的NAS算法。

LLaMA-NAS的钻研不只在技术层面取得了打破，更在实践运行和社会影响方面展现了庞大的后劲。随着人工智能技术的始终提高，LLaMA-NAS及其后续钻研将继续推进LLMs向着更高效、更可继续、更遍及的方向开展。

参考资料：

本文转载自，作者：

<<ICLR2024 大型言语模型的知识融合

微信等提出多模态大言语模型EE 数据高效和计算高效全都要！中科大&amp>>