编辑才干无下限！北航&amp 谷歌&amp 旷视等开源Chat

2024-11-15

文章链接：名目地址：代码：

引言

过去的3D场景编辑方法往往局限于固定的文本输入形式和有限的编辑才干。用户须要学习特定的命令或特定的多模态模型来成功所需的成果。而且,这些方法理论只能启动便捷的编辑,难以成功复杂的场景变换。但是实践运行中，用户的言语是及其丰盛的，用户的编辑须要也是多种多样的，的方法的设计范式均不可满足用户的诉求。

为了打破这些限度，本文提出了一种全新的3D场景编辑新范式—CE3D。该方法基于大规模言语模型，经过解耦2D编辑和3D重建环节，成功了灵敏且高效的恣意模型的集成，大大丰盛了文本对话才干和场景编辑才干。

什么是CE3D？

CE3D，即Chat-Edit-3D，对话式3D场景编辑的打破。它的外围理想是经过大规模言语模型解析用户的恣意文本输入，并自主调用相应的视觉模型来成功3D场景的编辑。为了成功恣意视觉模型的集成，CE3D设计了名为Hash-Atlas的映射网络，将3D场景的编辑转换为2D图集空间内的操作，从而成功了2D编辑与3D重建环节的齐全解耦，从此无需再指定固定的3D示意方式和2D编辑方法。

文章关键奉献如下：

方法

首先说明CE3D 全体pipeline（下图3），然后引见Hash-Atlas网络的设计、atlas空间中的编辑战略以及CE3D中对话系统的组件。

Hash-Atlas网络

本节引见了一种便捷的方法，将场景的各个视图间接映射到2D图集上，从而将3D场景编辑环节从新定位到2D空间中。相似的技术最后用于将视频帧映射到图集，须要延续帧敌对滑的摄像机静止，这与本文中经常使用的3D场景数据不同。为了成功本文所述的编辑配置，图集应满足以下条件：

Hash-Atlas公式

为了满足上述条件，设计了一个基于哈希结构的网络，如下图4所示。

当图集被编辑后，经过方程3可以在不从新训练Hash-Atlas网络的状况下复原3D场景每个视图的编辑成果。

训练和损失项

在图集空间中编辑

本文发现，间接编辑两个图集然后将它们映射回场景视图理论不会发生令人满意的编辑结果。这关键是由于单个图集蕴含的场景消息不完整，特意是在稠密的前景图集中。这种限度使得编辑模型不可失掉完整的场景语义，从而一直不可成功牢靠的编辑。因此，设计了一种用于编辑图集的兼并-拆分战略。在此环节中，应用ChatGPT的解析才干和VQA模型来识别编辑区域。假设这些区域触及前景内容，咱们将前景图集笼罩在背景图集上，并将其作为实践的编辑图集。随后，经常使用原始前景mask和新对象mask来分别编辑后的图集。用“口头器”来示意实践的编辑环节，如前面图3所示。

对话系统

对场景称号的敏感度

作为一种言语模型，ChatGPT不可间接访问文本以外的消息。但是，思索到编辑环节中触及的少量文件，将一切这些文件作为文本输入到ChatGPT中是不事实的。因此，用格局为‘xxx.scn’的单个字符串来示意所触及的文件。这个字符串是惟一且有意义的，以防止ChatGPT捏造场景称号。虽然这个场景称号并不是一个真正可读的文件，但经过前端和后端的进一步解决，CE3D可以有效地解决实在文件。前端将编辑结果和ChatGPT的输入组织成用户回复，然后端则散发编辑环节中触及的实在场景文件，并治理新场景的称号和文件。

用户查问的推理

在面对用户输入时，ChatGPT模拟一个思索环节：“我须要经常使用视觉工具吗？”→“我须要哪些工具？”→“这些工具的详细输入应该是什么？”。因此，预先向ChatGPT注入每个视觉专家的消息以成功这个推理环节是至关关键的。相似于[62, 66]，将每个视觉工具标注为四个类别：工具称号、在什么状况下经常使用、所需参数和详细输入示例。

编辑才干展现

在多轮对话编辑案例中，CE3D能够解决各种类型的编辑恳求，例如精准对象移除或交流、基于文本或图像的格调迁徙、深度图预测、基于文本和深度图条件的场景再生、人体Pose预测、场景超分、场景宰割等。此外，它还可以成功与场景关系的视觉问答义务和基本的文本对话。总之，由于能恣意裁减视觉模型，因此编辑才干无下限！

未来展望

虽然CE3D在3D场景编辑方面取得了清楚停顿,但钻研人员示意,这项技术仍有改良空间。例如,在解决360度全景场景时或者会遇到一些应战,还有进一步钻研的空间。

原文链接:

<<Web2Code 适用于多模态大模型的大规模网页转代码数据集与评价框架

文本生成超实在3D模型蚂蚁团体推出MaPa 浙大>>