ResearchAgent 再也不用担忧做科研没有思绪了应用agent智能生成论文idea

2024-11-14

大家好，我是HxShine

当蠢才享微软的一篇文章：ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models。传统的迷信钻研环节包含新钻研想法的提出和经过精心设计的试验来验证这些想法，这一环节缓慢且依赖专业专家，这限度了科研的消费劲。这篇论文试图应用agent思维来智能生成新的论文idea，处文迷信钻研消费劲低下的疑问，论文提出了一个名为ResearchAgent的工具，这是一个由大型言语模型驱动的钻研思绪撰写助手，能够智能化地生成疑问、方法和试验设计，并能应用ReviewAgent对它们启动迭代式的优化。

Title:ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models

URL:

Authors:Jinheon Baek, Sujay Kumar Jauhar, Silviu Cucerzan, Sung Ju Hwang

Institutions:KAIST,Microsoft Research, DeepAuto.ai

1 Motivation

•科研上班在推进翻新和处置疑问上施展着关键作用，但目前的科研环节复杂、缓慢，且须要专业的专家介入，这些都限度了科研的消费劲。

•为提高效率，本钻研提出了应用大型言语模型的钻研生成助手：ResearchAgent，它可以在阅读迷信文献的基础上，智能生成钻研畛域内的疑问、方法及试验设计，并能迭代地启动改善。

科研最关键的三个步骤是identifying problems（开掘疑问）, developing methods（方法开发）, and designing experiments（试验设计）。本文提出的“ResearchAgent”系统是一个基于大型言语模型（LLMs）的智能化科研想法生成框架，它经过三个关键步骤来模拟人类的科研环节：疑问识别、方法开发和试验设计。系统应用迷信文献中的援用相关和实体消息来增强LLMs的常识背景，并经过迭代评审和反应机制，由多个与人类偏好对齐的LLM代理（ReviewingAgents）来优化想法的品质。试验设置包含从学术图谱API失掉数据、构建实体中心的常识库，并经常使用GPT-4模型启动试验。经过人类和模型评价相联合的方法，验证了ResearchAgent在生成具有翻新性、明晰度和相关性的科研想法方面的有效性。

本文提出的“ResearchAgent”系统是一个基于大型言语模型（LLMs）的科研想法生成代理，旨在经过智能化的模式提出新的科研想法。这个方法的外围在于模拟人类钻研者在科研环节中的思索和迭代改良模式。以下是“ResearchAgent”方法的关键组成局部：

步骤一：LLM-Powered Research Idea Generation（应用core paper消息生成待钻研的疑问、以及方法和试验设计）

•疑问识别（Problem Identification）：应用LLM指出常识中的空白或矛盾，从而确定科研须要处置的疑问。

•方法开发（Method Development）：应用LLM设计用于处置疑问的方法论和工具。

•试验设计（Experiment Design）：应用LLM制订试验打算来验证提出的假定。

说明：咱们的指标是基于现有学术文章（literature），开掘新的idea，指标O由（problem，method，experiment）组成，可以示意为o = f(L)，这里相当于分三个步骤来成功这个指标，首先基于提供的常识L生成疑问，即p = f(L)，而后依据疑问p以及常识L生成method方法，即m = f(p, L)，接着依据疑问p，方法m和相关常识L成功试验设计，即d = f(p, m, L)。这里每一步都是经过LLM来成功，疑问识别的prompt示例如下：

步骤二：Knowledge-Augmented LLMs for Research Idea Generation（经过外部常识增强的方法，提高LLMs在科研想法生成中的成果）

说明：常识增强的内容会放到prompt的context中作为输入，留意core paper选用3个月超越100个援用次数的文章，而relevant paper应用abstracts的相似度来过滤筛选更相关的文章，确保focus在相关的畛域。其输入格局如下：

步骤三：Iterative Research Idea Refinements with Human Preference-Aligned LLM Agents（为了模拟人类钻研环节中经过peer探讨来迭代优化，这里经常使用多个LLM代理（ReviewingAgents）依据特定规范提供评审和反应来迭代优化。）

•评审和反应：生成的科研想法（疑问、方法和试验设计）依据特定规范启动评价。

•迭代改良：基于ReviewingAgents的评审和反应，ResearchAgent进一步降级和改良曾经生成的科研想法。

说明：Review Agent其实也是以LLM来成功，但是引入了人类的一些专家阅历，要求如下：

此外，为了使机器生成的评价与人类判别坚持分歧，本文还提出了一种智能生成与人类偏好分歧的评价规范的方法。这些规范是经过大批人类注释生成的，而后用于指点ReviewingAgents的评价。

说明：疑问识别，方法开发，试验设计都有相应的评分规范，其中疑问识别的评分规范如下：

3 Conclusion

ResearchAgent经常使用一种名为“迭代钻研想法精炼”的方法，该方法联合了应用大型言语模型评价和来自人类判别的反应。试验结果标明，ResearchAgent在多个畛域生成钻研想法方面优于现有基线，显示了其在激励发明性、明晰性和有效性方面的后劲。

4 Limitation

钻研提出的 ResearchAgent 只管在优化科研效率方面显示了后劲，但仍存在若干限度，须要未来的上班启动改良：

•目前经常使用的实体中心常识库构建基于文献的题目和摘要，或者不可充沛捕捉更宽泛和细节的迷信术语，未来上班或者须要裁减文献的范围，提高实体识别器的准确性。

•钻研的后续阶段——试验验证还需少量人力，钻研的智能化水平有待优化。

二、具体内容

1 试验设置

外围论文抽样：从高援用次数的论文中随机抽取300篇作为试验的外围论文。这些外围论文将用于生成和评价300个钻研想法。

模型和基线比拟：因为钻研想法生成是一个新义务，没有现有的基线模型可以间接比拟，因此，作者比拟了完整的ResearchAgent模型与以下变体：

• Naive ResearchAgent：仅经常使用外围论文生成想法。

• ResearchAgent w/o Entity Retrieval：经常使用外围论文及其相关援用，但不经常使用实体检索。

• ResearchAgent：完整模型，联合了相关援用和实体。

评价方法：因为没有规范答案，评价包含基于模型的智能评价和人类评价。

人类评价：选用至少宣布过三篇论文的专家启动评价，评价包含为每个规范打分和对不同模型生成的想法启动成对比拟。

成功细节：经常使用GPT-4作为一切模型的基础，经常使用BLINK实体链接器[2]提取实体并构建以实体为中心的常识库。

2 全体成果评价

模型和基线比拟：因为钻研想法生成是一个新义务，没有现有的基线模型可以间接比拟，因此，作者比拟了完整的ResearchAgent模型与以下变体的差异：

• Naive ResearchAgent：仅经常使用外围论文生成想法。

• ResearchAgent w/o Entity Retrieval：经常使用外围论文及其相关援用，但不经常使用实体检索。

• ResearchAgent：完整模型，联合了相关援用和实体。

说明：

1.评价方法：钻研想法的生成经过两种评价模式启动验证，人类评价（左侧）和基于模型（GPT4智能评价）的评价（右侧）。

2.多个规范：每个钻研想法依据五个不同的规范启动评分，包含原创性、明晰度、相关性、可行性和关键性等。

3.综合评分：除了每个独自的规范评格外，还有一个平均分数，它提供了对每个想法全体品质的综合视图。

论断：ResearchAgent，完整模型，联合了相关援用和实体这种方法成果最好。说明了本文提到的每个方法都能给全体agent带来不错的收益。

2 消融试验

3.1 各模块胜率对比

论断：ResearchAgent，完整模型，联合了相关援用和实体这种方法胜率最高。雷同说明了本文提到的每个方法都能给全体agent带来不错的收益。

3.2 援用和实体对各模块的影响

说明：每种消融变体在生成疑问（Problem）、方法（Method）和试验设计（Experiment）方面的功能评分。

•不经常使用实体检索（w/o Entities）的状况。

•经常使用随机实体（Random Entities）代替实践实体的状况。

•不经常使用参考文献（w/o References）的状况。

•经常使用随机参考文献（Random References）代替实践参考文献的状况。

•同时不经常使用实体和参考文献（w/o Entities & References）的状况。

论断：参考文献和实体的关键性。实体检索以及参考文献关于生成高品质的钻研想法至关关键。

3 review次数越多成果越好

说明：这里的“迭代改提高骤”指的是ResearchAgent系统经常使用ReviewingAgents启动的多轮评审和反应环节，目的是优化钻研想法的品质。

论断：大局部评分点，随着review次数越多，成果越好，不过在3轮有一些降低，或者是饱和了。

4 人类疏导的评分规范对齐在智能评价义务中的关键性

说明：该结果说明了模型评价结果的散布，比拟了三种不同评价方法的得分散布状况。

1.人类评价结果（左侧）：这局部展现了人类评价者给出的评分散布。因为人类评价者对钻研想法的品质有直观的了解，他们的评分散布可以作为评价规范的参考。

2.模型评价结果（两边）：这局部展现了模型在没有启动人类评分规范校准的状况下给出的评分散布。因为模型或者没有齐全了解人类评价的纤细差异，因此其评分散布或者与人类评价结果有所不同。

3.人类对齐模型评价结果（右侧）：在这局部，模型评价经常使用了基于人类评价结果导出的评分规范。这象征着模型评价试图与人类的评价偏好对齐，以提高评价的相关性和准确性。

论断：从图中可以看出，未经过人类评分规范校准的模型评价结果（两边）的散布或者与人类评价结果（左侧）有清楚差异，这标明模型在没有人类指点的状况下或者不可准确捕捉到钻研想法的品质。但是，当模型评价与人类评分规范对齐后（右侧），其评分散布与人类评价结果愈加凑近，显示了校准环节的有效性。这标明经过将模型评价与人类评价规范对齐，可以提高模型评价的品质和可信度。

5 论文的援用次数与生成的钻研想法品质之间存在正相关

说明：低、中、高援用次数的组别，以此来代表论文的影响力或“影响力”。而后，关于每个组别内的论文，经常使用模型评价（或者是GPT-4或其余相似的言语模型）来确定由这些论文生成的钻研想法的平均品质得分。

论断：可以观察到论文的援用次数与生成的钻研想法品质之间能否存在相关性，高援用次数的论文或者偏差于生成品质更高的钻研想法。

6 模型基座的影响

论断：GPT4.0比GPT3.5高了一大截，说明基座模型才干的关键性。同时本文的ResearchAgent也比Naive ResearchAgent高3个点左右，说明本文方法的有效性。

三、总结

论断1：模型在没有人类指点的状况下或者不可准确捕捉到钻研想法的品质。引入人类反应还是必要的，经过机器间接来review或者提供的反应消息还不够。经过将模型评价与人类评价规范对齐，可以提高模型评价的品质和可信度。

论断2：外部援用常识以及外部图谱常识能提高idea的生成品质。钻研经过常识库和相关文献的联合经常使用，优化了大型言语模型在迷信钻研畛域内创意生成的品质。

论断3：ReviewAgent迭代优化能清楚优化钻研创意。钻研设计的多个评审代理增强了生成的钻研创意的迭代改良环节，使其愈加陈腐、有效和明晰。

论断4：原始core paper的品质也十分关键，高引的paper生成的idea品质更好。

援用链接

[1]Semantic Scholar Academic Graph API:实体链接器:

本文转载自 NLP PaperWeekly ，作者：

<<第一个多模态MoE Aria

人类如何经过机器自动增强认知环节和行为>>

ResearchAgent 再也不用担忧做科研没有思绪了 应用agent智能生成论文idea