没有等来Qwen2.5 但等来了Qwen2

Qwen2又出新作Math大模型,你值得领有。

我没有等来Qwen2.5,但等来了Qwen2-Math ,在数学推理才干上大幅度提高,先来一张图阵阵场子,72B模型超越GPT4-o、Claude-3.5-Sonnet和Gemini-1.5-Pro。

Blog::

本次开源共触及3个尺寸2个版本,区分为Qwen2-Math-1.5B、Qwen2-Math-1.5B-Instruct、Qwen2-Math-7B、Qwen2-Math-7B-Instruct、Qwen2-Math-72B和Qwen2-Math-72B-Instruct。

模型训练初始化驳回Qwen2-1.5B、Qwen2-7B和Qwen2-72B,训练语料触及高品质的数学网络文本、书籍、代码、考试标题以及由 Qwen2模型分解的数学预训练数据

指令微调阶段是先用Qwen2-Math-72B训练了一个数学公用的鼓励模型,而后应用该鼓励模型和批示模型回答疑问能否正确这两个目的一同拒绝驳回构建SFT数据集,并应用GRPO进一步对齐模型成果。

留意:模型在预训练和指令微调阶段为了防止数据暴露,均启动数据去污染除了,移除测试集中 13-gram重复 最长公共子序列比例大于0.6 的训练样本。

模型在GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23多个等数据集上均取得了很好的成果。

相较于原版Qwen2有很大的优化

HF极速经常使用:

from transformers import AutoModelForCausalLM, AutoTokenizermodel_name = "Qwen/Qwen2-Math-1.5B-Instruct"device = "cuda"model = AutoModelForCausalLM.from_pretrained(model_name,torch_dtype="auto",device_map="auto")tokenizer = AutoTokenizer.from_pretrained(model_name)prompt = "Find the value of $x$ that satisfies the equation $4x+5 = 6x+7$."messages = [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": prompt}]text = tokenizer.apply_chat_template(messages,tokenize=False,add_generation_prompt=True)model_inputs = tokenizer([text], return_tensors="pt").to(device)generated_ids = model.generate(**model_inputs,max_new_tokens=512)generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]print(response)

最后说一下,官网示意目前的模型仅为英文模型,后续会推出中英双语模型。

本文转载自​​,作者:​​

您可能还会对下面的文章感兴趣: