基于全景图视觉自留意力模型的室内框架预计方法

2024-11-15

此方法关键关注室内框架预计（indoor estimation layout estimation）义务，义务输入2D图片，输入图片所形容场景的三维模型。思索到间接输入三维模型的复杂性，该义务普通被拆解为输入2D图像中的墙线、天花板线、地线三种线的信息，再依据线的信息经事先处置操作重建房间的三维模型。该三维模型可在前期进一步用于室内场景复刻、VR看房等详细运行场景。区别于深度预计方法，该方法基于对室内墙线的预计来复原空间几何结构，长处在于可使墙面的几何结构较为平坦；劣势则在于不可复原室内场景沙发、椅子等细节东西的几何信息。

依据输入图像的不同，普通可分为基于透视图和基于全景图的方法，相较于透视图，全景图具备视角较大、图像信息丰盛的特点。因为全景采集设施的遍及，全景数据日益丰盛，因此目前基于全景图启动室内框架预计的算法被宽泛钻研。

相关算法关键包括LayoutNet、HorizonNet、HohoNet及Led2-Net等，这些方法大多基于卷积神经网络，在结构复杂的位置墙线预测成果较差，如有噪声搅扰、自遮挡等位置会出现墙线不延续、墙线位置失误等预测结果。在墙线位置预计义务中，仅关注部分特色信息会造成该类失误的出现，需应用全景图中的全局信息思索整条墙线的位置散布来预计。CNN方法在提取部分特色义务中体现更优，Transformer方法更长于捕捉全局信息，因此可将Transformer方法运行于室内框架预计义务以优化义务体现。

因为训练数据依赖性，独自运行基于透视图预训练的Transformer预计全景图室内框架成果并不现实。PanoViT模型预先将全景图映射到的特色空间，经常使用Transformer学习全景图在特色空间的全局信息，同时思索全景图的表观结构信息成功室内框架预计义务。

二、方法引见与结果展现

网络结构框架蕴含4个模块，区分是Backbone，vision transformer解码器，框架预测模块，边界增强模块。Backbone模块将全景图映射至特色空间，vison transformer编码器在特色空间中学习全局关联，框架预测模块将特色转化为墙线、天花板线、地线信息，后处置可进一步获取房间的三维模型，边界增强模块突出全景图中边界信息关于室内框架预计的作用。

① Backbone模块

因为间接经常使用transformer提取全景图特色成果不佳，基于CNN的方法的有效性曾经证实CNN特色可用于预测屋宇框架。因此，经常使用CNN的backbone提取全景图不同尺度feature map并在feature map中学习全景图像的全局信息。试验结果标明在特色空间中经常使用transformer的体现大大优于间接在全景图上运行。

② Vision transformer encoder模块

Transformer主体架构可关键分为三个模块，包括patch sampling、patch embedding和transformer的multi-head attention。输入同时思索全景图像特色图与原始图像并针对不同输入驳回不同patch sampling方法。原图经常使用平均采样方法，特色图驳回水平采样方法。来自HorizonNet的论断以为在墙线预计义务中水平方向特色具备更高关键性，参考此论断，embedding环节中关于特色图特色启动竖直方向紧缩。驳回Recurrent PE方法组合不同尺度的特色并在multi-head attention的transformer模型中启动学习，获取与原图水平方向等长的特色向量，经过不同的decoder head可取得对应的墙线散布。

随机循环位置编码（Recurrent Position Embedding）思索到全景图沿水平方向位移不扭转图像视觉信息的特色，因此每次训练时沿着水平轴方向随机选取初始位置，使得训练环节更关注不同patch之间的相对位置而非相对位置。

③ 全景图的几何信息

全景图中几何信息的充沛应用可有助于室内框架预计义务体现的优化。PanoViT模型中的边界增强模块强调如何经常使用全景图中的边界信息，3D Loss则协助缩小全景图畸变影响。

边界增强模块思索到墙线检测义务中墙线的线状特色，图像中的线条信息关键性突出，因此须要突出边界信息使得网络了解图像中线的散布。经常使用频域中边界增强方法突出全景图边界信息，基于极速傅里叶变换获取图像频域示意，经常使用掩膜在频域空间中启动采样，基于傅里叶反变换变换回边界信息被突出的图像。模块外围在于掩膜设计，思索到边界对应高频信息，掩膜首先决定高通滤波器；并依据不同线的不同走向方向采样不同的频域方向。该方法相对传统LSD方法实施便捷且效率更高。

之前上班在全景图上计算像素距离作为预计误差，因为全景图畸变，图片上的像素距离并不正比于3D环球的实在距离。PanoViT经常使用3D损失函数，间接在3D空间中计算预计误差。

2、模型结果

经常使用Martroport3D、PanoContext公共数据集启动试验，经常使用2DIoU和3DIoU作为评估目的，并与SOTA方法启动对比。结果显示PanoViT在两个数据集中的模型评估目的基本到达最优，在特定目的中略逊于LED2。模型可视化结果与Hohonet比拟可发现，PanoViT可正确识别复杂场景下的墙线走向。在消融试验中两两对比Recurrent PE、边界增强与3D Loss模块，可验证模块有效性。

为了到达更好的模型数据集，搜集十万多张室内全景图像自建全景图像数据集，蕴含各类复杂室内场景，并基于自定规定启动标注，从当选取5053张图像作为测试数据集。在自建数据集上测试PanoViT模型与SOTA模型方法体现，发现随着数据量增大，PanoViT模型性能优化清楚。

算法留意力模型

<<Compose Docker Oracle 简介与

消息流场景下的AIGC通常>>