NeurIPS`24
文章链接:名目链接:
亮点直击
总结速览
处置的疑问
现有的场景了解数据集和基准测试在数据模态、多样性、规模和义务范围方面存在局限性,不可充沛允许对3D场景中情境了解的钻研。
提出的打算
提出了 多模态情境问答 (MSQA) 数据集和基准测试,经过3D场景图和视觉-言语模型大规模采集数据,以优化模型对情境的推理才干。此外,提出了 多模态情境下一步导航 (MSNN) 基准测试,用于评价模型在情境推理中的导航才干。
运行的技术
到达的成果
对MSQA和MSNN的综合评价显示了现有视觉-言语模型的局限性,验证了处置多模态交替输入和情境建模的关键性。数据裁减和跨域迁徙试验进一步标明,MSQA数据集在预训练中的运行清楚优化了模型的情境推理才干。
多模态情境推理数据集
本文提出了一种陈腐且可裁减的方法,用于搜集高品质的3D情境推理数据,并遵照三项外围准则:
数据搜集
如下图3所示,本文精心设计了一个基于LLM的智能数据搜集流程,蕴含三个阶段:情境采样、问答对生成和数据精炼。本文的数据搜集目的是确保生成数据的高品质。以下是流程的详细引见。
在将这些相关建设为场景图中的边后,依据采样情境的位置和视角调整水平临近相关,以取得情境场景图。基于这些情境场景图,设计系统提醒语并手工制造示例以提醒GPT-3.5生成情境问答对。本文关注9种不同的疑问范围,涵盖物体属性、计数、空间相关、导航举措等(如下图4(a)所示)。在提醒环节中,批示LLM输入疑问类别。为进一步增强LLM生成的问答对的多样性,咱们经常使用不同的种子示例组合,并依据不同的距离样本生成不同的情境子场景图用于疑问生成。
数据精炼 为了优化生成的情境问答对的品质,启动了精炼流程,包括两个关键方面:
先前的钻研[28, 68]已强调数据平衡的关键性,经过挑选不平衡的问答对来平衡生成数据的答案散布。经过这些步骤,搜集了跨ScanNet、3RScan和ARKitScenes的251K多模态情境问答对。下表1和提供了MSQA与现有数据集的对比及更多统计数据。
数据品质控制
虽然基于LLM的数据搜集流程具有可裁减性,但生成数据的品质依然是关键关注点,特意是在3D视觉-言语义务中,言语的锚定具有应战性。为应答这些疑问,启动了人类钻研,将生成的数据与SQA3D中的人工标注数据启动比拟。详细而言,从MSQA和SQA3D中各抽取100条数据实例并混合供人类评价。评价员被要求从三个方面为数据打分:
每个方面的评分范围为1到5分。评价流程的详细消息见附录B。评价结果如下面图4(b)所示,显示MSQA在各方面的品质与SQA3D相当。此外,图4(c)标明,MSQA中高评分数据(即得分≥4的品质数据)的比例与SQA3D相婚配或超越SQA3D。这标明了MSQA的品质以及数据精炼流程的有效性。
评价基准
本节详细形容了用于多模态情境推理的评价义务。详细而言,思考了以下两个基准义务:
多模态情境问答 (MSQA) 在MSQA中评价模型在情境感知和处置交织的多模态输入方面的才干。详细来说,给定一个多模态情境形容,模型须要回答一个基于3D场景的文本-图像交织疑问。由于回答是开明式的,以往的目的(如分类准确率和齐全婚配准确率)不可准确评价。为了处置此疑问,参考OpenEQA经常使用基于GPT的评价目的来评价开明式回答,并裁减其提醒集以适用于3D情境推理。总体上,报告了蕴含N个样本的测试集的正确率评分C,其计算方式如下:
多模态情境下一步导航 (MSNN) 除了MSQA外,还宿愿经过具身AI义务(如导航)评价模型的情境感知才干。为将长时布局与情境了解分别,本文提出了MSNN义务,聚焦于在情境和导航目的的基础上预测最佳的即时下一步举措。详细来说,给定代理的交织多模态情境形容(包括位置、方向和文本形容)、目的文本形容和全体场景,咱们批示模型以文本方式回答通向目的的下一步举措。
为评价,MSNN数据驳回相似情境QA生成流程并蕴含四个关键步骤:
最优门路由A*算法生成,以在平面图上布局从起始位置到目的的最短门路,而即时下一步举措则依据相对起始情境的最优门路方向确定。最终,生成了一个蕴含34K个MSNN样本的数据集,笼罩ScanNet中的378个3D场景。此数据集进一步用于监视微和谐MSNN评价。
试验
模型设置
受3D通用模型、LLM和VLM最新停顿的启示,本文提出了几种适用于MSQA和MSNN的潜在方法,包括可间接零样本运行于这些义务的模型,以及须要指令调优的模型。
零样本模型
本文钻研了现有LLMs和VLMs(例如GPT-3.5和GPT-4o)在多模态情境推理中的才干。鉴于这些模型在处置3D点云方面的局限性,咱们将3D场景的文本形容作为输入提供应这些模型。详细而言,场景被形容为对象汇合,每个对象都蕴含类别、位置、大小和属性等特色。而后将该场景的文本形容与交织的多模态情境形容、指令和疑问结合,进一步由LLM或VLM处置。关于纯文本模型(如LLMs),用对象类别代替对象的图像作为模型输入。此外,还引入了Claude-3.5-Sonnet以消弭GPT家族内的潜在偏向。
指令调优
基于3D通用模型的最新停顿,对现有的3D视觉-言语基础模型在MSQA和MSNN义务上启动微调。选用LEO作为代表模型,因其在3D视觉-言语了解和推理中的出色体现。由于LEO不允许交织的多模态输入,将输入图像交流为其对应的对象类别,相似于零样本模型。此外,还裁减了LEO,以顺应交织的多模态输入,构成了咱们弱小的基线模型MSR3D,公用于情境推理和导航。MSR3D经过依据代理的情境对点云输入启动平移和旋转来建模情境。选用MSR3D作为后续消融钻研和剖析的关键模型。更多关于MSR3D设计的细节详见附录C。
评价结果
本节提供了模型在MSQA和MSNN义务上的评价结果。报告了两个义务测试集的平均正确性评分。此外,还调查了不同情境和疑问输入模态(Input)、3D场景示意(Scene)以及模型设置(Setting)。关于MSNN,将预训练数据(PT>多模态情境问答 (MSQA)
下表2中展现了MSQA的试验结果,并报告以下发现:
情境组件对情境推理至关关键
为了提醒情境组件在微调(FT)模型中的有效性,咱们减少了一个齐全移除情境组件的FT基线,保管3D场景和疑问作为输入。前面表2(有情境)中的结果显示,去除情境组件后功能清楚降低。特意是,导航相关疑问的降低更为清楚,这与MSNN的评价结果相分歧,突显了情境组件的关键性。
交织多模态输入为情境推理带来了新应战
虽然交织多模态输入具有长处,观察到MSR3D(T+I)的体现略逊于仅文本输入(T)。为进一步剖析这一纤细差异,咱们从测试集中提取了两个子集,使图像仅出如今情境或疑问中。下表4中报告了这两个子集的评价结果,显示“T+I”在图像仅出如今疑问中的子集上体现清楚降低。咱们推测,将图像归入疑问或者放大了情境推理的难度,由于从图像中识别查问对象须要额外的定位才干。
多模态情境下一步导航 (MSNN)
在下表5中展现了MSNN的试验结果,并报告以下发现:
MSNN义务具有应战性
表5的结果显示,最新的LLMs(如GPT-3.5和GPT-4o)和3D视觉言语模型在处置MSNN义务时都面临清楚的应战。这标明了MSNN义务在3D情境推理和具身AI钻研中的价值。
MSQA作为具身AI预训练源的有效性
咱们发现,将MSQA用于预训练(对LEO和MSR3D均有效)清楚优化了MSNN义务的体现,说明MSQA作为处置具身导航义务的预训练源的有效性。
MSR3D的情境建模方法有效
MSR3D(T),结合情境建模,在导飞行为预测中显示出清楚更高的准确性(相比LEO(T)高出8.56%)。这验证了咱们情境建模方法的有效性。此外,咱们经过屏蔽代理的位置和方向来测试有情境的MSR3D,结果体现清楚降低(见表5的有情境结果),进一步证实了情境消息的关键性,同时MSR3D能够有效应用情境消息。
附加剖析
裁减效应 经过在不同数据规模下训练MSR3D来探求MSQA的裁减效应。钻研了裁减的三个要素:QA(随机下采样QA对)、情境(下采样QA对和情境)以及场景(下采样QA对和场景)。如图7所示,随着这三个要素的裁减,模型功能出现继续优化的趋向,显示了清楚的裁减效应,标明进一步裁减的后劲。
跨畛域迁徙 本文将MSQA数据分为三个子集,区分为、和 ARKitScenes ,并经过在每个子集上训练MSR3D并在一切子集上启动评价来钻研跨畛域迁徙。下表6的结果显示,每个子集上最佳的体现是经过在同一畛域内训练(加粗的局部),而非跨畛域迁徙,展现了畛域间的差距。在ARKitScenes上训练的模型在跨畛域迁徙中的体现较差。思考到ARKitScenes中场景相对便捷,这标明在复杂场景上的训练有助于优化跨畛域泛化才干。
论断
本文提出了多模态情境问答(MSQA),这是一个大规模的多模态情境推理数据集,经过可裁减的数据生成pipeline搜集而成。MSQA蕴含251K个情境QA对,涵盖多种事实环球场景,一切数据以一致格局出现,包括交织的文本、图像和点云。本文提出了基于MSQA的应战性基准,用于评价3D场景中的多模态情境推理。此外,还提出了多模态情境下一步导航(MSNN),这一义务旨在评价情境推理和具身导航的才干。咱们的片面试验凸显了咱们数据集和基准的关键价值。宿愿这项上班能推进情境场景了解和具身智能的开展。
原文链接: