专家为思想链！钻研发现这三种义务不适宜让AI OpenAI的o1是万金油吗想太多 o1准确率直降36.3%！泼冷水

2024-11-14

出品 | 技术栈（微信号：blog51cto）

别想太多！这句劝慰有必定情理，在很多疑问上适度思索反而会大失所望！

AI能否也会这样呢？

自 OpenAI 的 o1 推出后，思想链成为了 AI 才干更新的一个新方向。

把握了“慢思索”的 AI ,经过思想链的逐渐推理，大幅提高了模型了解疑问的深度和准确性。o1在国内数学奥林匹克（IMO）资历考试中取得了 83% 的惊人准确率，让人直呼逆天。

遭到人类认知心思学的启示，普林斯敦大学和纽约大学的团队协作，宿愿验证在哪些特定义务中，思想链会对 AI 的义务表现起到负面作用。

先甩个论断：在人类不能“想太多”的义务上，有半数义务中思想链雷同起到了负向作用，区分是：隐式统计学习（Implicit Statistical Learning, ISL）、面部识别（Face Recognition, FR）和含有例外的数据分类（Classification of>

依据论文，人类不适宜的适度思索的六种义务可以分为两类：

1. 隐式统计学习（上图中：ISL）：分类由人工语法生成的字符串。在这项义务中，人假设适度思索，反而会搅扰潜看法中的统计法令学习，造成表现降低。

2. 面部识别（上图中：FR）：从一组具备相似形容的脸孔中识别特定的脸。若适度思索，会破坏直觉性的视觉识别环节，影响识别准确率。

3. 含有例外的数据分类（上图中：CDE）：在存在例外的状况下学习标签。适度思索会造成对规定的适度概括，疏忽例外状况，从而降低准确性。

4. 人造言语推理（上图中：NLI）：识别逻辑上的不分歧。适度思索或者使人们更容易漠视逻辑不分歧性。

5. 空间直觉（上图中：SI）：歪斜水杯的判别。若人适度思索，则可无能扰直觉性的空间判别。

6. 上班记忆（上图中：WM）：聚合文本中形容的多个特色以做出决策。适度思索容易使人消息过载，影响决策品质。

在试验中，除了 o1 以外， GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro 等干流模型也都被测到了。除了 o1 自带思想链，其余的模型则经常使用了一句便捷的Prompt“Please reason about your answer before answering “Yes” or “No”（请在回答是或否行启动推理）”，人为性能了思索环节。

结果标明，在前三项义务中，模型性能都同人一样，产生了降低。

上图：义务一结果，OpenAIo1预览版，与GPT-4o 直给答案相比，相对精度降低了36.3%。

不过，也有三个义务 AI 并未遭到思索适度的搅扰，这表现了人类与 AI 才干的不同。

2.AI不受影响的义务，以及为什么？

在人造言语推理义务中，CoT通常使得模型才干不降反升。

尤其在GPT-4o中，CoT对MNLI和SNLI（数据集名）的性能提高了40%以上。但是，在直给答案的Prompt疏导下表现最好的模型——Gemini 1.5 Pro中，钻研却看到了CoT形成的性能降低。

这说明，在人造言语推理义务下，思想链能协助推理“底子”较弱的模型优化逻辑推理才干。

第二，在空间直觉义务上，CoT对模型性能的影响未有统计学的意义。要素很便捷：LLM没有直觉！在如何歪斜水杯，水杯中的水会溢进去的这个疑问上，模型不具备人类一切的静止模拟才干，物理模型依然留待打破。

最后，在上班记忆义务上，CoT 也通常使得模型的性能获取优化。

在这个义务中，介入者被展现了48个无关公寓的形容，其中这些陈说形容了四个公寓选用中的一个踊跃、消极或中性的方面。在要求人类启动选用时，大少数人会做出蹩脚的判别。

不过，因为模型记忆容量远超人类，不易产生消息过载现象，因此逐渐思索后，坚持了良好的决策水平。

想了解更多AIGC的内容，请访问：

AI.x社区

OpenAI o1 准确率

<<这8条必定要防范！选室内装璜公司

无需重构代码即可提高运行程序性能 PHP操作码>>

专家为思想链 ！钻研发现 这三种义务不适宜让AI OpenAI的o1是万金油吗 想太多 o1准确率直降36.3%！ 泼冷水

2.AI不受影响的义务，以及为什么？

您可能还会对下面的文章感兴趣：

随便看看

专家为思想链！钻研发现这三种义务不适宜让AI OpenAI的o1是万金油吗想太多 o1准确率直降36.3%！泼冷水