AI Scientist爆火面前的技术详解以及优缺陷剖析

当蠢才享一篇最近比拟抢手的日本守业公司Sakana AI的一篇文章,题目为《The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery》。文章提出了一种名为“AI Scientist”的框架,旨在成功端到端齐全智能化的迷信发现,成功从Idea构建,试验跑取,文章撰写的齐全智能化。验证了AI智能化探求新疑问,处置新疑问,甚至撰写Paper的可行性。同时还提出了一个能与人类评委水准凑近的Review Agent,能够给出高水准的评审意见。

总体来说,其还是一个多agent系统,应用了reflection机制迭代优化成果,同时也联合Semantic Scholar等工具验证翻新性,应用Aider工具来降级代码和Paper,来口头相关试验。同时也要看到其只是搭了一个基础的Baseline通道,如何优化Idea生成的深度以及多样性,如何让LLM能成功更复杂,更有应战性的Idea,如何降落Review Agent的False Positive Rate(FPR)都值得进一步探求。

本文将对其面前的技术,优缺陷启动详细的剖析~

一、概述

1. Motivation

文章引见了“AI迷信家”框架,该框架包含三个重要阶段:

1.想法生成:AI迷信家首先“头脑风暴”出一系列陈腐的钻研方向,而后在此基础上启动翻新性迭代优化,最后挑选翻新性较高的idea。

2.试验迭代:依据想法和模板,AI迷信家首先口头提出的试验plan,而后依据试验结果,迭代优化试验,最后降级plot代码,可视化其结果以供后续撰写,代码经过AIder工具来降级。

3.论文撰写:AI迷信家经常使用LaTeX撰写完整的迷信论文,形容其停顿。

•输入:总体就两个输入,Baseline Code,以及论文Latex模板,加上init paper的一些消息。

• Baseline code:a starting code template that reproduces a lightweight baseline training run from a popular model or benchmark. For example, this could be code thattrains a small transformeron the works of Shakespeare (Karpathy, 2022), a classic proof-of-concept training run from natural language processing that completes within a few minutes

• Latex模版:LaTeX folder that containsstyle files and section headers, along with simple plotting code.

•输入:完整的Paper

1 Idea generate环节

•输入:code template

•输入:some ideas

•代码:​ ​​ ​

• generate_ideas:idea生成

• generate_next_idea:在seed的基础上继续生成新的idea

• search_for_papers:调用api search paper

• check_idea_novelty:审核并优化翻新性

1.1 Idea Generation Prompt

•好处:对diversity做了优化和限度,引入了COT机制。

•缺陷:idea全靠LLM外部消息想进去,思索的常识有限,降级也不迭时,不太能及时follow最新常识,不过外部常识能做到什么粒度其实还不太确定,另外外部常识其实是不足新常识的,这对迷信钻研十分致命。

1.2 Idea Novelty Prompt

•缺陷:还是翻新所有源于LLM外部常识。

2 Experiments环节

•输入:idea + template

•输入:experiment result + experiment figures

•成功模式:经过Aider降级代码,而后口头命令行跑取模型结果。

• Aider平台,可以经过命令降级代码:•

2.1 Experiment Running Aider Prompt

•特点:先也会有一个plan,而后区分成功experiments

•缺陷:没详细讲如何成功Experiment的,Aider看着是个平台,或者可以间接用,然而改代码很容易出错,稳固性存疑。

2.2 Plotting Aider Prompt

•特点:生成plot,还有description,后续用于减少到论文中。

3 Paper Writing流程

•输入:Latex模版 + Experiments recorded notes + plots,Latex模板图如下,也是用Aider工具来修正•

•输入:paper

3.1 Paper Writing Aider Prompt

•特点:提供每个section的倡导+latex的template+plan

•缺陷:Aider是个啥,觉得writing比拟有用的样子。

4 Reviewer Agent流程

•输入:PDF manuscript

•输入:Paper Review Result

•好处:参考了neurips ReviewerGuidelines,同时引入reflection,few-shot来优化成果。

4.1 Paper Review Prompt

•特点:引入neurips guideline和few_shot_example。

4.2 Paper Review Reflection Prompt

•特点:经过多轮迭代 + COT思索

4.3 Paper Review Ensembling Prompt

•特点:还有个汇总的,好处self-consistant的觉得

5 反思和迭代次数

3. Coclusion

文章搭建了一个AI Scientist,经过三个子义务验证了其可行性:分散模型、Transformer和Groking。并且每种想法的成功和开发老本不到15美元。标明了该框架在Research钻研和清楚减速迷信提高方面的后劲。

•搭建了一个完整的科研链路Agent:idea -> Experiments -> Paper,还真work了。

•附带送了一个凑近人类水平的Paper Review Agent,成果也还不错。

4. Limitation

•生成的Idea经常十分相似,甚至不同模型,不同run都会有很相似的idea。

• Aider成功ideas有艰巨,GPT-4o写Latext常不能编译,有些idea成功challenging比拟大。

• plot的图像也或者有疑问,而且还不止是vision,或者看不出成果。

• Latext的cite和reference或者有疑问。

• LLM数学才干不太好,对metric不敏感。

•幻觉。

二、详细内容

1 LLM Paper Review水平在ICLR2022数据集上曾经凑近人类水平

•特点:精度和人类比拟凑近(balanced 0.65 vs 0.66),False Negative Rate(FNR)更低,False Positive Rate(FPR)偏高,说明也有打分偏高的状况。

2 Reflexion和one-shot能优化Reviewing成果

•论断:从0.66优化到0.70,看着还不错。Ensemble后精度没有优化,然而variance有降落。

3 Diffusion Modeling优化成果

•**论断1:Sonnet3.5看着比GPT-4o好很多啊,而且还更廉价,成功Paper率居然凑近80%**,还是很凶猛。

•论断2:DeepSeek Coder是性价比之王。

•其余:DIffusion Modeling觉得都是比拟老的模型了,应用LLM生成的idea或者都是训练过的了,或者并不能代表真正的翻新。

4 Language Modeling优化成果

•论断: 这次成功率只要40%了,这个差异好大,跟猜想的一样,coding或者十分不稳固,另外DeepSeek Coder确实凶猛。

5 Grokking优化成果

•论断:不同paper,不同LLM基座的Noval Ideas居然都超越90%,然而Experiments的成功率差异十分大。​

本文转载自​​,作者:

您可能还会对下面的文章感兴趣: