Qwen2.5登上世界开源王座！72B模型击败LIama3 轻松胜过GPT 405B

2024-11-15

击败LIama3！Qwen2.5登上世界开源王座。

然后者仅以五分之一的参数规模，就在多义务中逾越LIama3 405B。

各种义务体现也远超同类别的其余模型。

跟上一代相比，简直成功了片面优化，尤其在普通义务、数学和编码方面的才干体现清楚。

值得留意的是，此次Qwen可以说是史上最大规模开源，基础模型间接监禁了7个参数型号，其中还有六七个数学、代码模型。

像14B、32B以及轻量级Turbo模型胜过GPT-4o-mini。

除3B和72B模型外，此次一切开源模型均驳回Apache 2.0容许。

间接一整个目迷五色，曾经有网友开局用上了。

Qwen2.5 72B与LIama3.1 405B水平相当

相比于Qwen2系列，Qwen2.5系列重要有这么几个方面更新。

首先， 片面开源 。

他们钻研标明，用户关于消费用的10B-30B参数范围以及移动端运行的3B规模的模型有浓重兴味。

因此在原有开源同尺寸（0.5/1.5/7/72B）基础上，还新增了14B、32B以及3B的模型。

同时，通义还推出了Qwen-Plus与Qwen-Turbo版本，可以经过阿里云大模型服务平台的API服务启动体验。

可以看到，超半数模型都允许128K高低文，最多可生成8K高低文。

在他们的综合评测中，一切模型跟上一代相比成功了才干的跃迁，比如Qwen2.5-32B胜过Qwen2-72B，Qwen2.5-14B胜过Qwen2-57B-A14B。

其次，预训练数据集更大更高品质 ，从原本7万亿个token扩展到最多18万亿个token。

然后就是多方面的才干增强，比如取得更多常识、数学编码才干以及更合乎人类偏好。

此外，还有在指令跟踪、长文本生成、结构化数据了解和结构化输入生成方面均有清楚优化。

来看看实践效果。

表格了解

生成JSON输入

此外，Qwen2.5模型总体上对系统提醒的多样性具备更强的顺应才干，增强了聊天机器人的角色表演成功和条件设定才干。

那么就来看看详细模型才干如何。

旗舰模型在前文曾经看到，它在各个义务都有清楚的提高。

而像0.5B、1.5B以及3B这样的小模型，功能大略是这样的：

值得留意的是，Qwen2.5-0.5B型号在各种数学和编码义务上的体现优于Gemma2-2.6B。

除此之外，Qwen2.5还展现了指令调优之后的模型功能，72B-Instruct在几项关键义务中逾越了更大的Llama-3.1-405B，尤其在数学（MATH：83.1）、编码（LiveCodeBench：55.5）和聊天（Arena-Hard：81.2）方面体现杰出。

还有像32B-Instruct、14B-Instruct以及Qwen2.5-Turbo，展现了与GPT-4o-mini相当的才干。

Qwen史上最大规模开源

除了基础模型，此次Qwen还放出了代码和数学专业模型。

Qwen2.5-Coder提供了三种模型大小：1.5B、7B和32B版本（行将推出）。

重要有两点改良：代码训练数据规模的扩展以及编码才干的增强。

Qwen2.5-Coder在更大规模的代码数据上启动训练，包含源代码、文本代码基础数据和分解数据，总计5.5万亿个token。

它允许128K高低文，笼罩92种编程言语。开源的7B版本甚至逾越了DeepSeek-Coder-V2-Lite和Codestral等更大型的模型，成为目前最弱小的基础代码模型之一。

而数学模型这边，Qwen2.5-Math重要允许经过CoT和TIR处置英文和中文数学识题。

目前不倡导将此系列模型用于其余义务。

Qwen2.5-Math这一系列开源了包含基础模型Qwen2.5-Math-1.5B/7B/72B、指令调优模型Qwen2.5-Math-1.5B/7B/72B-Instruct，以及数学鼓励模型Qwen2.5-Math-RM-72B。

与Qwen2-Math系列仅允许经常使用思想链（CoT）处置英文数学识题不同，Qwen2.5-Math 系列扩展允许经常使用思想链和工具集成推理（TIR）处置中英文数学识题。

跟上一版本相比，他们重要干了这三件事来成功基础模型更新。

应用Qwen2-Math-72B-Instruct模型来分解额外的高品质数学预训练数据。

从网络资源、书籍和代码中搜集更多高品质的数学数据，尤其是中文数据，逾越多个期间周期。

应用Qwen2.5系列基础模型启动参数初始化，展现出更弱小的言语了解、代码生成和文本推理才干。

最终成功了才干的优化，比如1.5B/7B/72B在高考数学识答中区分优化了 3.4、12.2、19.8 分。

好了，以上是Qwen2.5系列一整套可谓「史上最大规模」的开源。

不叫草莓叫猕猴桃

阿里通义开源担任人林俊旸也分享了面前的一些细节。

他首先示意，在开源Qwen2的那一刻就开局了Qwen2.5名目。

在这环节中，他们意识到了很多疑问和失误。

比如在预训练方面，他们们只是专一于提高预训练数据的品质和数量，经常使用了很多大家相熟的方法。

比如文本分类器用于召回高品质数据，LLM 评分器用于对数据启动评分，这样就能在品质和数量之间取得平衡。

还有在创立专家模型的同时，团队还应用它们生成分解数据。

在前期训练时刻，用户的反应来协助他们逐个处置疑问，同时他们也在探求RLHF 方法，尤其是在线学习方法。

关于之后的更新和更新，他示意受o1启示，以为应该深化钻研推理才干。

值得一提的是，在Qwen2.5预热之时，他们团队就泄漏不叫草莓，叫猕猴桃。

好了，如今猕猴桃可以快快用起来了。

开源模型代码

<<Agent AI 软件工程师 AI 五个基于的开源

六款高品质的开源名目 SpringBoot 都是精品>>

Qwen2.5登上世界开源王座！72B模型击败LIama3 轻松胜过GPT 405B

Qwen2.5 72B与LIama3.1 405B水平相当

Qwen史上最大规模开源

不叫草莓叫猕猴桃

您可能还会对下面的文章感兴趣：

随便看看