阿里史上最大规模开源颁布超GPT

2024-11-15

当天清晨，阿里巴巴官宣了史上最大规模的开源颁布，推出了基础模型Qwen2.5、公用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。

这三大类模型一共有10多个版本，包含0.5B、1.5B、3B、7B、14B、32B和72B，实用于团体、企业以及移动端、PC等不同人群不同业务场景的模型。

假设不想启动繁琐的部署，阿里还开明了旗舰模型Qwen-Plus 和 Qwen-Turbo的API，协助你极速开发或集成生成式AI配置。

开源地址：

Github：

在线demo：

API地址：

上方「AIGC开明社区」具体为大家引见这些模型的性能特点以及测试结果。

Qwen2.5系列性能测试

本次阿里开源的最大版本指令微调模型Qwen2.5-72B在MMLU-Pro

MMLU-redux、GPQA、MATH、GSM8K、HumanEval、MBPP等世界出名基准测试平台的测试结果显示。

只管Qwen2.5只要720亿参数，但在多个基准测试中击败了Meta领有4050亿参数的最新开源Llama-3.1指令微调模型 ；片面超越了Mistral最新开源的Large-V2指令微调模型，成为目前最弱小参数的开源模型之一。

即使是没有启动指令微调的基础模型，其性能雷同超越Llama-3-405B。

阿里开明API的旗舰模型Qwen-Plus，其性能可以媲美闭源模型GPT4-o 和Claude-3.5-Sonnet。

此外，Qwen2.5系列初次引入了140 亿和320亿两种新参数模型，Qwen2.5-14B 和 Qwen2.5-32B。

指令微调模型的性能则超越了谷歌的Gemma2-27B、微软的Phi-3.5-MoE-Instruct， 与闭源模型GPT-4o mini相比，只要三项测试略低其余基准测试所有超越 。

自阿里颁布CodeQwen1.5 以来，吸引了少量用户经过该模型成功各种编程义务，包含调试、回答编程关系的疑问以及提供代码倡导。

本次颁布的Qwen2.5-Coder-7B指令微调版本，在泛滥测试基准中，击败了那些出名且有较大参数的模型。

前不久阿里初次颁布了数学模型Qwen2-Math，本次颁布的Qwen2.5-Math 在更大规模的高品质数学数据上启动了预训练，包含由 Qwen2-Math 生成的分解数据。同时参与了对中文的允许，并经过CoT、PoT和 TIR的才干来增强其推理才干。

其中，Qwen2.5-Math-72B的全体性能逾越了Qwen2-Math-72B指令微和谐驰名闭源模型GPT4-o。

其实从上方这些测试数据不美观出，即使是参数很小的模型，在品质数据和架构的协助下，雷同可以击败高参数模型，这在能耗和环境部署方面领有相当大的长处。而阿里本次颁布的Qwen2.5系列将小参数模型的性能施展到了极致。

Qwen2.5系列便捷引见

Qwen2.5系列允许中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等超越29种支谣言语。与 Qwen2相似，Qwen2.5言语模型允许高达 128K tokens，并能生成最多 8K tokens的内容。

与Qwen-2相比， Qwen2.5系列的预训练数据大幅度增长到达了惊人的18万亿tokens，超越了Meta最新开源Llama-3.1的15万亿 ，成为目前训练数据最多的开源模型。

常识才干清楚增强，Qwen2.5在 MMLU 基准测试中，与 Qwen2-7/72B 相比从70.3提高到74.2，从84.2提高到86.1 。Qwen2.5 在 GPQA/MMLU-Pro/MMLU-redux/ARC-c 基准测试上也有显着改良。

Qwen2.5能够生成更合乎人类偏好的照应，与Qwen2-72B-Instruct相比，Qwen2.5-72B-Instruct的Arena-Hard分数从48.1显着提高到81.2 ，MT-Bench分数从9.12提高到9.35 。

数学才干取得增强，在融合了Qwen2-math的技术后，Qwen2.5的数学才干也获取了极速优化。在MATH基准上，Qwen2.5-7B/72B-Instruct的得分从Qwen2-7B/72B-Instruct的52.9/69.0提高到75.5/83.1。

此外，Qwen2.5在指令跟踪、生生长文本（从1k参与到超越8K标志）、了解结构化数据（例如表格）以及生成结构化输入（尤其是JSON）方面成功了显着改良。同时对系统揭示的多样性更具弹性，增强了聊天机器人的角色表演实施和条件设置。

原文链接:

阿里史上最大规模开源颁布 超GPT