编程体现比肩ChatGPT 这个新模型才干很弱小

2024-11-14

智谱8月底在国际数据开掘与常识发现大会（KDD）上颁布了新一代自主研发的新旗舰模型（GLM-4-Plus、GLM-4V-Plus、CogView-3-Plus），此次降级笼罩了言语了解、图像生成、视频了解等多个方面，并到达了国际第一梯队的水平。

本次颁布较之前有以下降级：

作为智谱最新一代基座大模型GLM-4-Plus，经过多种模式结构出了海量高品质数据，并应用 PPO等多项技术，有效优化了模型推理、指令遵照等方面的体现，并能够更好地反映人类偏好。从benchmark上看，与 GPT-4o 等第一梯队模型差距很小。

既然，官网说的这么好，那我们就必定要去尝尝鲜，这些模型在智谱的开明平台（ bigmodel.cn ）就能体验。

咱也不让它写文章，做数学题了，这些网上很多文章都有引见，我们就让它做一次性程序员，试试它的编程才干，顺便体验一下sdk的易用性。

我给它出了一道很经常出现的面试算法题“字符串全陈列”，它很罗唆的给出了却果，经过笔者验证，回答正确，看起来这些曾被大家“wow”的才干，在当下曾经成为了基本功。这里有一个小细节，笔者在揭示词里参与了不用解释这样的形容，GLM-4-Plus没有啰嗦解释，这说明指令听从才干还可以，这一点关于LLM运行开发很关键。

from zhipuai import ZhipuAIclient = ZhipuAI(api_key="...")def ai_programmer(task):prompt = f"作为一个阅历丰盛的程序员，请帮我成功以下义务：{task},仅前往代码，不用解释"response = client.chat.completions.create(model="glm-4-plus",messages=[{"role": "user","content": prompt}],)return response.choices[0].messagetask = "写一个Python函数，成功字符串abc的全陈列"result = ai_programmer(task)print(result.content)# ```python# def permute_abc(s):#if len(s) == 1:#return [s]#permutations = []#for i, char in enumerate(s):#remaining = s[:i] + s[i+1:]#for p in permute_abc(remaining):#permutations.append(char + p)#return permutations# def all_permutations_abc():#return permute_abc('abc')# ```

当然，这个难度不大，很多模型都能做到，那我们调高难度，我拿了前两天ChatGPT及Cursor逆向工程紧缩特效js的代码测试了GLM-4-Plus（加长阅读：用ChatGPT逆向工程紧缩后的Js代码，体现冷艳）。

glm-4-plus了解了代码，并给出了具体的解释。

接着，我让它对原代码启动了重构，使其变得更易读。

就从代码格调，变量、方法命名看，glm-4-plus体现的比chatGPT还要好，能够准确的起名和注释。但最后评估好不好，还得实测，笔者照例把它放到了v0chat上，依照雷同的模式，让它调用glm-4-plus生成的组件，看看能不能恢复预期的成果。

令人快慰的是，超乎我的预期的是它一次性性的就运转了起来，笔者同时还测试了一些国产模型，他们很遗憾并没能运转起来，也就不可对比成功的成果。看过之前文章的读者应该能发现，从成功的恢复度来看，glm-4-plus与gpt-4o模型和claude-3.5-sonanet功能还有一些差距。这也反映当下一个理想，国际大模型这一年提高显著，但尚存差距，我们还得继续追逐。

总结

AI的环球每天都在变动，而智谱BigModel的颁布，无疑是给了我们中国开发者一个大大的惊喜。无论是想做聊天机器人、图像解决还是视频剖析，只需有创意，都可以尝试经常使用它们成功想法，而不用遗憾用不上上游模型的遗憾，这也能进一步激起LLM运行生态的兴盛。

本文转载自，作者：

<<人工自动的分歧性推理悖论

人工智能技术在共性化医疗中的翻新与应战人造期刊颁布最新迷信报告>>

编程体现比肩ChatGPT 这个新模型才干很弱小

总结

您可能还会对下面的文章感兴趣：

随便看看