of TOT Thought Tree

当蠢才享一篇普林斯顿大学的一篇文章,Tree of Thoughts: Deliberate Problem Solving with Large Language Models[1]:思想之树:用大型言语模型处置复杂疑问。

这篇上班还是十分有自创意义的,OpenAI的Andrej Karpathy(前Tesla AI初级总监、智能驾驶Autopilot担任人)在state of gpt[2]中也分享了这篇文章,其可以经过搜查多条处置门路,应用dfs以及bfs等算法,像人类一样应用回溯、剪枝等战略来思索和处置疑问,可以让GPT-4处置一些更复杂的推理疑问。

一、概述

Title:Tree of Thoughts: Deliberate Problem Solving with Large Language Models

论文地址:

论文代码:

非官网代码:

1 Motivation

2.1 Thought decomposition【thought合成】

目标:如何将两边环节合成成一个思想步骤【不同义务的thought steps怎样设计比拟好】

方法:不同的义务,两边的思索环节thought或许不同,例如或许是几个words(Crosswords填字谜游戏),或许是一个equation(24点游戏),也或许是一个paragraph(创意文本生成),设计thoughts可以有几个准则:

2.2 Thought generator【thought生成】

背景:不同的义务Thought生成的准则也不太一样,可以依据义务的特点制订thought生成的准则。

【Mini Crosswords 填字游戏】是什么?:Mini Crosswords是一种简化版的填字游戏,适宜在有限的空间和期间内启动。与传统的填字游戏不同,Mini Crosswords经常使用较小的网格,通常为5x5或6x6,且只蕴含较少的单词。每个单词都有一个揭示,玩家须要依据揭示填写正确的单词。

【Mini Crosswords 填字游戏】thought生成方法:间接依据节点曾经填好的单词(限度条件),应用prompt方法生成5次,发生下一个词或许的5种填写方法。

2.3 State evaluator【形态评价】

定义:给定不同的state形态,state evalutor用于评价那个方法最有凑近处置疑问。通常是应用heuristis方法来处置,像deepBlue是用编程的方法来处置,AlphaGo是用学习的方法来处置,本文间接是用LM去评价和思索state处置疑问的前景。雷同的,针对不同的义务也有不同的评价方法。这里关键提出两种战略:

【24点游戏】评价方法:间接应用prompt LM去评价每个thoughts为sure、maybe、impossible几个选项

【Mini Crosswords 填字游戏】评价方法:间接应用prompt评价每个candidates的confidence(sure、impossible、maybe)

【创意文本生成】评价方法:间接应用LM投票从多个state当选用最好的一个,例如经常使用以下prompt:“analyze choices below,then conclude which is most promising for the instruction”

其余:关于每一种战略,都可以应用LM prompt屡次集成屡次的value分数或许vote投票优化其鲁棒性。

2.4 Search algorithm【搜查算法】

说明:关于树的结构,有很多中搜查算法,本文探求了两种繁难的搜查算法BFS和DFS。

3 Conclusion

4 Limitation

二、具体内容

1三个试验的定义

2 搜查算法战略

特点:应用BFS,可以像人类一样,不时探求比拟好的b个(宽度)成功方法。应用DFS方法,可以繁难的启动剪枝,回溯,像人一样,路走不通,我退回上一个不走从新选用。相关于之前的COT等从左到右的思想战略,切实上觉得确实会有着比拟大的优化空间。

3 Game of 24试验结果剖析

4 Creative Writing results和Mini Crosswords results结果剖析

智能评价(连接性):ToT (7.56) > CoT (6.93) > IO (6.19)

人工评价(GSB):ToT vs COT G:S:B = (41:38 :21)

iterative-refine(旧的thought -> refine -> 新的thought):迭代优化还能继续优化,ToT (7.56 -> 7.91) ,IO (6.19 -> 7.17) ,这个优化也挺大的,可以作为一个新的方法

Letter(字母级别准确率):ToT (78) > CoT (40.6) > IO (38.8)

Word(字级别准确率):ToT (60) > CoT (15.6) > IO (14)

Game(游戏级别处置率):ToT (20) > CoT (1) > IO (0)

消融试验:(1)+best state:应用更好的state评价器,或许获取更大的优化,Game级别处置率从20%->35%,说明本文提到的繁难的启示式的评价算法还有比拟大的空间。(2)剪枝:去掉剪枝,只能处置1个疑问,另外3个都是经过启示式的剪枝找到的,说明这种方法关于处置疑问是至关关键的。(3)回溯:去掉回溯算法后,成果体现比拟差,说明有间断性的这种寻觅答案的方法也是十分关键的。

5Related Work

三、总结

1. 提出了一种齐全由LLM + 启示式搜查算法结合的TOT算法,其可以从多条处置门路,极速的找到最佳处置方法,可以处置的一些复杂的,GPT-4都体现差的一些义务。其关键由thought生成、thought评价、搜查算法组成,可以生成处置打算、对打算启动自我评价、同时可以经过回溯算法来间断之前的处置思绪,应用剪枝算法过滤无法靠处置打算,优化找到最优处置门路的速度。 2. TOT其各个部分都是高度模块化的,例如可以用不同的LM,不同的搜查算法来成功,通用性比拟强,同时其关于每个义务thought的定义都不太分歧,如何针对不同的义务设置更好的thought也比拟关键,他这里提出了“不能太小”、“不能太大”的指点准则可以参考。 3. TOT间接应用LM的评价器成果还有待提高,Mini Crosswords results义务应用更好的state评价器,或许获取更大的优化,Game级别处置率从20%->35%,说明应用更好的评价器也是十分关键的,可以取得更好的结果。 4. OpenAI的Andrej Karpathy在state of gpt中也提到了TOT算法,其也或许是比Auto-GPT更好的一种,让llm启动深思熟虑来处置复杂疑问的一种成功思绪。

四、References

[1] Yao, Shunyu, et al. "Tree of thoughts: Deliberate problem solving with large language models." arXiv preprint arXiv:2305.10601 (2023).

[2] state of gpt:​

您可能还会对下面的文章感兴趣: