NeurIPS`24

2024-11-14

文章链接：名目链接：

亮点直击

总结速览

处置的疑问

现有的场景了解数据集和基准测试在数据模态、多样性、规模和义务范围方面存在局限性，不可充沛允许对3D场景中情境了解的钻研。

提出的打算

提出了 多模态情境问答 (MSQA) 数据集和基准测试，经过3D场景图和视觉-言语模型大规模采集数据，以优化模型对情境的推理才干。此外，提出了 多模态情境下一步导航 (MSNN) 基准测试，用于评价模型在情境推理中的导航才干。

运行的技术

到达的成果

对MSQA和MSNN的综合评价显示了现有视觉-言语模型的局限性，验证了处置多模态交替输入和情境建模的关键性。数据裁减和跨域迁徙试验进一步标明，MSQA数据集在预训练中的运行清楚优化了模型的情境推理才干。

多模态情境推理数据集

本文提出了一种陈腐且可裁减的方法，用于搜集高品质的3D情境推理数据，并遵照三项外围准则：

数据搜集

如下图3所示，本文精心设计了一个基于LLM的智能数据搜集流程，蕴含三个阶段：情境采样、问答对生成和数据精炼。本文的数据搜集目的是确保生成数据的高品质。以下是流程的详细引见。

在将这些相关建设为场景图中的边后，依据采样情境的位置和视角调整水平临近相关，以取得情境场景图。基于这些情境场景图，设计系统提醒语并手工制造示例以提醒GPT-3.5生成情境问答对。本文关注9种不同的疑问范围，涵盖物体属性、计数、空间相关、导航举措等（如下图4(a)所示）。在提醒环节中，批示LLM输入疑问类别。为进一步增强LLM生成的问答对的多样性，咱们经常使用不同的种子示例组合，并依据不同的距离样本生成不同的情境子场景图用于疑问生成。

数据精炼 为了优化生成的情境问答对的品质，启动了精炼流程，包括两个关键方面：

先前的钻研[28, 68]已强调数据平衡的关键性，经过挑选不平衡的问答对来平衡生成数据的答案散布。经过这些步骤，搜集了跨ScanNet、3RScan和ARKitScenes的251K多模态情境问答对。下表1和提供了MSQA与现有数据集的对比及更多统计数据。

数据品质控制

虽然基于LLM的数据搜集流程具有可裁减性，但生成数据的品质依然是关键关注点，特意是在3D视觉-言语义务中，言语的锚定具有应战性。为应答这些疑问，启动了人类钻研，将生成的数据与SQA3D中的人工标注数据启动比拟。详细而言，从MSQA和SQA3D中各抽取100条数据实例并混合供人类评价。评价员被要求从三个方面为数据打分：

每个方面的评分范围为1到5分。评价流程的详细消息见附录B。评价结果如下面图4(b)所示，显示MSQA在各方面的品质与SQA3D相当。此外，图4(c)标明，MSQA中高评分数据（即得分≥4的品质数据）的比例与SQA3D相婚配或超越SQA3D。这标明了MSQA的品质以及数据精炼流程的有效性。

评价基准

本节详细形容了用于多模态情境推理的评价义务。详细而言，思考了以下两个基准义务：

多模态情境问答 (MSQA) 在MSQA中评价模型在情境感知和处置交织的多模态输入方面的才干。详细来说，给定一个多模态情境形容，模型须要回答一个基于3D场景的文本-图像交织疑问。由于回答是开明式的，以往的目的（如分类准确率和齐全婚配准确率）不可准确评价。为了处置此疑问，参考OpenEQA经常使用基于GPT的评价目的来评价开明式回答，并裁减其提醒集以适用于3D情境推理。总体上，报告了蕴含N个样本的测试集的正确率评分C，其计算方式如下：

多模态情境下一步导航 (MSNN) 除了MSQA外，还宿愿经过具身AI义务（如导航）评价模型的情境感知才干。为将长时布局与情境了解分别，本文提出了MSNN义务，聚焦于在情境和导航目的的基础上预测最佳的即时下一步举措。详细来说，给定代理的交织多模态情境形容（包括位置、方向和文本形容）、目的文本形容和全体场景，咱们批示模型以文本方式回答通向目的的下一步举措。

为评价，MSNN数据驳回相似情境QA生成流程并蕴含四个关键步骤：

最优门路由A*算法生成，以在平面图上布局从起始位置到目的的最短门路，而即时下一步举措则依据相对起始情境的最优门路方向确定。最终，生成了一个蕴含34K个MSNN样本的数据集，笼罩ScanNet中的378个3D场景。此数据集进一步用于监视微和谐MSNN评价。

试验

模型设置

受3D通用模型、LLM和VLM最新停顿的启示，本文提出了几种适用于MSQA和MSNN的潜在方法，包括可间接零样本运行于这些义务的模型，以及须要指令调优的模型。

零样本模型

本文钻研了现有LLMs和VLMs（例如GPT-3.5和GPT-4o）在多模态情境推理中的才干。鉴于这些模型在处置3D点云方面的局限性，咱们将3D场景的文本形容作为输入提供应这些模型。详细而言，场景被形容为对象汇合，每个对象都蕴含类别、位置、大小和属性等特色。而后将该场景的文本形容与交织的多模态情境形容、指令和疑问结合，进一步由LLM或VLM处置。关于纯文本模型（如LLMs），用对象类别代替对象的图像作为模型输入。此外，还引入了Claude-3.5-Sonnet以消弭GPT家族内的潜在偏向。

指令调优

基于3D通用模型的最新停顿，对现有的3D视觉-言语基础模型在MSQA和MSNN义务上启动微调。选用LEO作为代表模型，因其在3D视觉-言语了解和推理中的出色体现。由于LEO不允许交织的多模态输入，将输入图像交流为其对应的对象类别，相似于零样本模型。此外，还裁减了LEO，以顺应交织的多模态输入，构成了咱们弱小的基线模型MSR3D，公用于情境推理和导航。MSR3D经过依据代理的情境对点云输入启动平移和旋转来建模情境。选用MSR3D作为后续消融钻研和剖析的关键模型。更多关于MSR3D设计的细节详见附录C。

评价结果

本节提供了模型在MSQA和MSNN义务上的评价结果。报告了两个义务测试集的平均正确性评分。此外，还调查了不同情境和疑问输入模态（Input）、3D场景示意（Scene）以及模型设置（Setting）。关于MSNN，将预训练数据（PT>多模态情境问答 (MSQA)

下表2中展现了MSQA的试验结果，并报告以下发现：

情境组件对情境推理至关关键

为了提醒情境组件在微调（FT）模型中的有效性，咱们减少了一个齐全移除情境组件的FT基线，保管3D场景和疑问作为输入。前面表2（有情境）中的结果显示，去除情境组件后功能清楚降低。特意是，导航相关疑问的降低更为清楚，这与MSNN的评价结果相分歧，突显了情境组件的关键性。

交织多模态输入为情境推理带来了新应战

虽然交织多模态输入具有长处，观察到MSR3D（T+I）的体现略逊于仅文本输入（T）。为进一步剖析这一纤细差异，咱们从测试集中提取了两个子集，使图像仅出如今情境或疑问中。下表4中报告了这两个子集的评价结果，显示“T+I”在图像仅出如今疑问中的子集上体现清楚降低。咱们推测，将图像归入疑问或者放大了情境推理的难度，由于从图像中识别查问对象须要额外的定位才干。

多模态情境下一步导航 (MSNN)

在下表5中展现了MSNN的试验结果，并报告以下发现：

MSNN义务具有应战性

表5的结果显示，最新的LLMs（如GPT-3.5和GPT-4o）和3D视觉言语模型在处置MSNN义务时都面临清楚的应战。这标明了MSNN义务在3D情境推理和具身AI钻研中的价值。

MSQA作为具身AI预训练源的有效性

咱们发现，将MSQA用于预训练（对LEO和MSR3D均有效）清楚优化了MSNN义务的体现，说明MSQA作为处置具身导航义务的预训练源的有效性。

MSR3D的情境建模方法有效

MSR3D（T），结合情境建模，在导飞行为预测中显示出清楚更高的准确性（相比LEO（T）高出8.56%）。这验证了咱们情境建模方法的有效性。此外，咱们经过屏蔽代理的位置和方向来测试有情境的MSR3D，结果体现清楚降低（见表5的有情境结果），进一步证实了情境消息的关键性，同时MSR3D能够有效应用情境消息。

附加剖析

裁减效应 经过在不同数据规模下训练MSR3D来探求MSQA的裁减效应。钻研了裁减的三个要素：QA（随机下采样QA对）、情境（下采样QA对和情境）以及场景（下采样QA对和场景）。如图7所示，随着这三个要素的裁减，模型功能出现继续优化的趋向，显示了清楚的裁减效应，标明进一步裁减的后劲。

跨畛域迁徙 本文将MSQA数据分为三个子集，区分为、和 ARKitScenes ，并经过在每个子集上训练MSR3D并在一切子集上启动评价来钻研跨畛域迁徙。下表6的结果显示，每个子集上最佳的体现是经过在同一畛域内训练（加粗的局部），而非跨畛域迁徙，展现了畛域间的差距。在ARKitScenes上训练的模型在跨畛域迁徙中的体现较差。思考到ARKitScenes中场景相对便捷，这标明在复杂场景上的训练有助于优化跨畛域泛化才干。

论断

本文提出了多模态情境问答（MSQA），这是一个大规模的多模态情境推理数据集，经过可裁减的数据生成pipeline搜集而成。MSQA蕴含251K个情境QA对，涵盖多种事实环球场景，一切数据以一致格局出现，包括交织的文本、图像和点云。本文提出了基于MSQA的应战性基准，用于评价3D场景中的多模态情境推理。此外，还提出了多模态情境下一步导航（MSNN），这一义务旨在评价情境推理和具身导航的才干。咱们的片面试验凸显了咱们数据集和基准的关键价值。宿愿这项上班能推进情境场景了解和具身智能的开展。

原文链接:

<<网络设备

AI Agent落地电商典型运行通常>>