编程体现比肩ChatGPT 这个新模型才干很弱小

智谱8月底在国际数据开掘与常识发现大会(KDD)上颁布了新一代自主研发的新旗舰模型(GLM-4-Plus、GLM-4V-Plus、CogView-3-Plus),此次降级笼罩了言语了解、图像生成、视频了解等多个方面,并到达了国际第一梯队的水平。

本次颁布较之前有以下降级:

作为智谱最新一代基座大模型GLM-4-Plus,经过多种模式结构出了海量高品质数据,并应用 PPO等多项技术,有效优化了模型推理、指令遵照等方面的体现,并能够更好地反映人类偏好。从benchmark上看,与 GPT-4o 等第一梯队模型差距很小。

既然,官网说的这么好,那我们就必定要去尝尝鲜,这些模型在智谱的开明平台( bigmodel.cn )就能体验。

咱也不让它写文章,做数学题了,这些网上很多文章都有引见,我们就让它做一次性程序员,试试它的编程才干,顺便体验一下sdk的易用性。

我给它出了一道很经常出现的面试算法题“字符串全陈列”,它很罗唆的给出了却果,经过笔者验证,回答正确,看起来这些曾被大家“wow”的才干,在当下曾经成为了基本功。这里有一个小细节,笔者在揭示词里参与了不用解释这样的形容,GLM-4-Plus没有啰嗦解释,这说明指令听从才干还可以,这一点关于LLM运行开发很关键。

from zhipuai import ZhipuAIclient = ZhipuAI(api_key="...")def ai_programmer(task):prompt = f"作为一个阅历丰盛的程序员,请帮我成功以下义务:{task},仅前往代码,不用解释"response = client.chat.completions.create(model="glm-4-plus",messages=[{"role": "user","content": prompt}],)return response.choices[0].messagetask = "写一个Python函数,成功字符串abc的全陈列"result = ai_programmer(task)print(result.content)# ```python# def permute_abc(s):#if len(s) == 1:#return [s]#permutations = []#for i, char in enumerate(s):#remaining = s[:i] + s[i+1:]#for p in permute_abc(remaining):#permutations.append(char + p)#return permutations# def all_permutations_abc():#return permute_abc('abc')# ```

当然,这个难度不大,很多模型都能做到,那我们调高难度,我拿了前两天ChatGPT及Cursor逆向工程紧缩特效js的代码测试了GLM-4-Plus(加长阅读:用ChatGPT逆向工程紧缩后的Js代码,体现冷艳)。

glm-4-plus了解了代码,并给出了具体的解释。

接着,我让它对原代码启动了重构,使其变得更易读。

就从代码格调,变量、方法命名看,glm-4-plus体现的比chatGPT还要好,能够准确的起名和注释。但最后评估好不好,还得实测,笔者照例把它放到了v0chat上,依照雷同的模式,让它调用glm-4-plus生成的组件,看看能不能恢复预期的成果。

令人快慰的是,超乎我的预期的是它一次性性的就运转了起来,笔者同时还测试了一些国产模型,他们很遗憾并没能运转起来,也就不可对比成功的成果。看过之前文章的读者应该能发现,从成功的恢复度来看,glm-4-plus与gpt-4o模型和claude-3.5-sonanet功能还有一些差距。这也反映当下一个理想,国际大模型这一年提高显著,但尚存差距,我们还得继续追逐。

总结

AI的环球每天都在变动,而智谱BigModel的颁布,无疑是给了我们中国开发者一个大大的惊喜。无论是想做聊天机器人、图像解决还是视频剖析,只需有创意,都可以尝试经常使用它们成功想法,而不用遗憾用不上上游模型的遗憾,这也能进一步激起LLM运行生态的兴盛。

本文转载自​​,作者:

您可能还会对下面的文章感兴趣: