AI Scientist爆火面前的技术详解以及优缺陷剖析
当蠢才享一篇最近比拟抢手的日本守业公司Sakana AI的一篇文章,题目为《The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery》。文章提出了一种名为“AI Scientist”的框架,旨在成功端到端齐全智能化的迷信发现,成功从Idea构建,试验跑取,文章撰写的齐全智能化。验证了AI智能化探求新疑问,处置新疑问,甚至撰写Paper的可行性。同时还提出了一个能与人类评委水准凑近的Review Agent,能够给出高水准的评审意见。
总体来说,其还是一个多agent系统,应用了reflection机制迭代优化成果,同时也联合Semantic Scholar等工具验证翻新性,应用Aider工具来降级代码和Paper,来口头相关试验。同时也要看到其只是搭了一个基础的Baseline通道,如何优化Idea生成的深度以及多样性,如何让LLM能成功更复杂,更有应战性的Idea,如何降落Review Agent的False Positive Rate(FPR)都值得进一步探求。
本文将对其面前的技术,优缺陷启动详细的剖析~
一、概述
1. Motivation
文章引见了“AI迷信家”框架,该框架包含三个重要阶段:
1.想法生成:AI迷信家首先“头脑风暴”出一系列陈腐的钻研方向,而后在此基础上启动翻新性迭代优化,最后挑选翻新性较高的idea。
2.试验迭代:依据想法和模板,AI迷信家首先口头提出的试验plan,而后依据试验结果,迭代优化试验,最后降级plot代码,可视化其结果以供后续撰写,代码经过AIder工具来降级。
3.论文撰写:AI迷信家经常使用LaTeX撰写完整的迷信论文,形容其停顿。
•输入:总体就两个输入,Baseline Code,以及论文Latex模板,加上init paper的一些消息。
• Baseline code:a starting code template that reproduces a lightweight baseline training run from a popular model or benchmark. For example, this could be code thattrains a small transformeron the works of Shakespeare (Karpathy, 2022), a classic proof-of-concept training run from natural language processing that completes within a few minutes
• Latex模版:LaTeX folder that containsstyle files and section headers, along with simple plotting code.
•输入:完整的Paper
1 Idea generate环节
•输入:code template
•输入:some ideas
•代码:
• generate_ideas:idea生成
• generate_next_idea:在seed的基础上继续生成新的idea
• search_for_papers:调用api search paper
• check_idea_novelty:审核并优化翻新性
1.1 Idea Generation Prompt
•好处:对diversity做了优化和限度,引入了COT机制。
•缺陷:idea全靠LLM外部消息想进去,思索的常识有限,降级也不迭时,不太能及时follow最新常识,不过外部常识能做到什么粒度其实还不太确定,另外外部常识其实是不足新常识的,这对迷信钻研十分致命。
1.2 Idea Novelty Prompt
•缺陷:还是翻新所有源于LLM外部常识。
2 Experiments环节
•输入:idea + template
•输入:experiment result + experiment figures
•成功模式:经过Aider降级代码,而后口头命令行跑取模型结果。
• Aider平台,可以经过命令降级代码:•
2.1 Experiment Running Aider Prompt
•特点:先也会有一个plan,而后区分成功experiments
•缺陷:没详细讲如何成功Experiment的,Aider看着是个平台,或者可以间接用,然而改代码很容易出错,稳固性存疑。
2.2 Plotting Aider Prompt
•特点:生成plot,还有description,后续用于减少到论文中。
3 Paper Writing流程
•输入:Latex模版 + Experiments recorded notes + plots,Latex模板图如下,也是用Aider工具来修正•
•输入:paper
3.1 Paper Writing Aider Prompt
•特点:提供每个section的倡导+latex的template+plan
•缺陷:Aider是个啥,觉得writing比拟有用的样子。
4 Reviewer Agent流程
•输入:PDF manuscript
•输入:Paper Review Result
•好处:参考了neurips ReviewerGuidelines,同时引入reflection,few-shot来优化成果。
4.1 Paper Review Prompt
•特点:引入neurips guideline和few_shot_example。
4.2 Paper Review Reflection Prompt
•特点:经过多轮迭代 + COT思索
4.3 Paper Review Ensembling Prompt
•特点:还有个汇总的,好处self-consistant的觉得
5 反思和迭代次数
3. Coclusion
文章搭建了一个AI Scientist,经过三个子义务验证了其可行性:分散模型、Transformer和Groking。并且每种想法的成功和开发老本不到15美元。标明了该框架在Research钻研和清楚减速迷信提高方面的后劲。
•搭建了一个完整的科研链路Agent:idea -> Experiments -> Paper,还真work了。
•附带送了一个凑近人类水平的Paper Review Agent,成果也还不错。
4. Limitation
•生成的Idea经常十分相似,甚至不同模型,不同run都会有很相似的idea。
• Aider成功ideas有艰巨,GPT-4o写Latext常不能编译,有些idea成功challenging比拟大。
• plot的图像也或者有疑问,而且还不止是vision,或者看不出成果。
• Latext的cite和reference或者有疑问。
• LLM数学才干不太好,对metric不敏感。
•幻觉。
二、详细内容
1 LLM Paper Review水平在ICLR2022数据集上曾经凑近人类水平
•特点:精度和人类比拟凑近(balanced 0.65 vs 0.66),False Negative Rate(FNR)更低,False Positive Rate(FPR)偏高,说明也有打分偏高的状况。
2 Reflexion和one-shot能优化Reviewing成果
•论断:从0.66优化到0.70,看着还不错。Ensemble后精度没有优化,然而variance有降落。
3 Diffusion Modeling优化成果
•**论断1:Sonnet3.5看着比GPT-4o好很多啊,而且还更廉价,成功Paper率居然凑近80%**,还是很凶猛。
•论断2:DeepSeek Coder是性价比之王。
•其余:DIffusion Modeling觉得都是比拟老的模型了,应用LLM生成的idea或者都是训练过的了,或者并不能代表真正的翻新。
4 Language Modeling优化成果
•论断: 这次成功率只要40%了,这个差异好大,跟猜想的一样,coding或者十分不稳固,另外DeepSeek Coder确实凶猛。
5 Grokking优化成果
•论断:不同paper,不同LLM基座的Noval Ideas居然都超越90%,然而Experiments的成功率差异十分大。
本文转载自,作者: