2024 跟踪一切目的！DINO ECCV

2024-11-15

论文地址：

开源地址：

01 疑问引入

近年来，在视频中树立密集点对应相关这一钻研取得了渺小停顿。在短期的密集静止估量方面，比如光流估量，钻研界的关注焦点是监视学习——设计弱小的前馈模型，并在各种分解数据集上启动训练，应用准确的监视消息。最近，这一趋向裁减到了视频中的常年点跟踪畛域。随着新架构（如Transformers）和提供常年轨迹监视的新分解数据集的出现，各种监视跟踪器被开收回来，展现了令人印象深入的成绩。

但是，精准的跟踪视频中每一个静止点对此类基于监视学习的方法而言是一个极大的应战：

首先，用于点跟踪的分解数据集通常蕴含在不事实性能中的移生物体，相关于人造视频中静止和物体的宽泛散布，这些数据集在多样性和规模上遭到限制；

此外，现有模型在逾越整个视频时空范围内聚合消息的才干依然有限——这一点在长时期遮挡（例如在物体被遮挡之前和之后正确婚配一个点）中尤其关键。

为了应答这些应战，Omnimotion（也就是23年的Tracking Everything）提出了一种测试的优化框架，经过估量算的光流和视频重建作为监视，将跟踪优化到3D层面。这种方法经过优化给定测试视频上的跟踪器，实质上一次性性处置了一切视频像素的静止疑问。但是，Omnimotion存在一个致命缺陷：它严重依赖估量算的光流和单个视频中的消息，没无应用关于视觉环球的外部常识和先验。

在本文中，作者提出了一种新方法，训练与少量数据的学习结合起来，扬长避短，构成一个针对特定视频特色提取婚配再到追踪优化框架，该框架结合由宽泛的无标签图像训练的外部图像模型学习到的弱小特色表示。遭到最近自监视学习渺小停顿的启示，作者的框架应用了预训练的DINOv2模型——一个经常使用少量人造图像启动预训练的视觉Transformers。DINO的特色提取曾经被证实能够捕捉细粒度的语义消息，并被用于各种视觉义务，如宰割和语义对应。

本项上班是初次将基于DINO提取的特色用于密集跟踪的钻研。 作者展现了经常使用原始DINO特色婚配可以作为一个弱小的跟踪baseline，但这些特色自身无余以允许亚像素精度的跟踪。因此，作者的框架同时调整DINO的特色以顺应测试视频中的静止观察，同时训练一个间接应用这些精炼特色的跟踪器。为此，作者设计了一个新的目的函数，经过在精炼特色空间中造就持重的语义特色级别对应相关，逾越了光流监视成功的效果。

▲图1｜效果演示©️【深蓝AI】编译

本文的外围奉献包括：

02 成功细节

▲图2｜全文方法总览©️【深蓝AI】编译

结合图2，可以了解全文方法的pipeline：

关于给定的输入视频序列，此方法的目的是训练一个跟踪器，该跟踪器接受查问点作为输入，并输入一组位置估量，这个环节很容易了解，就是特色提取+婚配+预测，但是这里的特色提取驳回了预训练的 DINOv2-ViT 模型启动特色提取。假设各位对DINO还不太了解，请详细阅读上方这段引见——

咱们可以将DINO(Distillation with No Labels)了解为一种无标签的学习训练方法，它宽泛运行于计算机视觉畛域，尤其是在自监视学习和特色表示学习中。DINO模型的一个清楚特点是应用Vision Transformer(ViT)架构启动训练，无需人工标注数据，经过自监视的模式学习图像的语义特色，DINO有三个最清楚的特点：

DINO在本文中的运行：DINO 的预训练特色为此方法的框架提供了初始的语义和部分表示，但缺乏准确的长时期跟踪所需的时期分歧性和细粒度定位。因此，此方法训练了 Delta-DINO，这是一种特色提取器，用于预测预训练 DINO 特色的残差。此方法的目的是优化这些特色，使它们可以作为“轨迹嵌入”，即沿着轨迹采样的特色应该收敛到一个共同的表示，同时保管原始的 DINO 先验。这个环节实践上处置的是长距离的跟踪疑问，以往的方法往往不会对未来的位置启动预测，而是间接对下一帧图像中相反的特色点启动婚配，这样一旦遮挡物出现，特色点之间的婚配失败，就会跟丢目的，而此方法的预测才干，能够在遮挡物出现的时刻经过将预测的点启动婚配，从而保障跟踪的延续性。

2.1 跟踪环节

DINO-Tracker的追踪环节可以分为三个阶段：特色提取+特色婚配+轨迹预测+全局分歧优化。

关于特色提取，前文曾经提到此方法关键驳回预训练的DINO框架启动特色点的提取，这一部分关键应用了DINO框架的灵敏性和高品质的特色表白，提取后的特色会构成一个特色图，用于后续的特色婚配。

在特色婚配阶段，比起传统的在特色点图中启动对应婚配，本文还提出了一个额外的婚配模式，就是用DINO提取的特色对应相关用于补充训练数据，提供额外的监视。经过识别“最佳配对点”提取牢靠的婚配相关，其中每个点在一帧中的最近邻婚配第二帧中的最近邻。在训练时期，精炼特色改良其表示并发现新的牢靠对应相关，构成继续降级的精炼最佳配对点汇合，成功高品质的特色点婚配，这样获取的婚配相关愈加精准，也为后续的长距离跟踪和阻碍物遮挡打下了基础。

轨迹预测首先如前文所述，会训练一个Delta-DINO来启动初步的新特色点预测，也就是预测下一帧中特色点或许出现的位置，但是这个预测往往会存在必定的误差，此方法采自监视优化战略来优化这个误差。详细而言，就是经常使用从测试视频智能提取的监视信号来婚配沿轨迹的预测点。这些信号来自光流和DINO特色的对应相关。光流提供帧间准确的位移消息，经过链接这些位移创立短期轨迹。在预处置环节中，此方法经过计算出一切循环分歧的光流对应相关，为短轨迹提供高品质的监视。笔者深刻地总结一下，轨迹预测分为两个阶段，第一阶段中驳回Delta-DINO预测下一帧出现的特色点，在第二阶段中驳回光流法计算特色点的位移消息，结合这个计算进去的位移消息以及预测获取的特色点消息启动联结优化，最终确定预测的轨迹，实践上是一个“双保险”的环节，光流发充沛应用了已知的消息，Delta-DINO则经常使用了预训练DINO模型的弱小先验。

经过特色提取+特色婚配，DINO-Tracker成功了每一帧中特色点的准确识别和配准，经过特色婚配+轨迹预测，成功了这一帧和下一帧的特色点准确跟踪，这个环节不时迭代，这就是DINO-Tracker能够成功长距离跟踪的外围。

2.2 遮挡处置

此方法还有一个很强的才干，就是关于遮挡的处置，图3很好地说明了DINO-Tracker是如何在遮挡物出现的时刻依然坚持鲁棒跟踪的原理。要处置遮挡场景，首先要有才干判别遮挡的出现，这一点在本文中经过测量轨迹位移差成功，如图3所示，作者选用K1和K2作为锚点，计算追踪点X0能否存在遮挡相关，从图中来看，X0处的轨迹和K1与K2处的轨迹有清楚的位移差异，当这种位移差异出现的时刻，就会判别在X0处出现了遮挡。这个计算的原理十分便捷，目的就是为了优化速度！

想必各位都能发现，本文并不是实时处置遮挡相关的，而是经过帧与前两帧来计算遮挡相关，假设判别出现遮挡，就会及时优化批改前一帧中失误的追踪，但是由于这样的计算模式速度很快，这些都出当初电光火石之间，因此关于全局的追踪速度没有太大的影响。

当遮挡相关被计算获取之后，轨迹的预测就会派上用场了，前文中咱们提到了关于轨迹预测的“双保险”，即使用Delta-DINO预测下一帧的特色点位置+经常使用光流间接计算特色点位置共同启动预测，但是遮挡的相关出现会造成光流法失效，因此这个时刻会赋予Delta-DINO更多的权重，从而坚持跟踪，当物体穿过遮挡物之后，光流又会继续上线，协助批改全局的跟踪轨迹，经过这个环节成功了关于遮挡相关的处置。

很多人对此都会发生一个不懂：

假设遮挡相关出现得太久，不时依托Delta-DINO的预测，能否会出现轨迹上的偏向？

答案是：必定会出现的。

在“透视”技术被钻研进去之前，通常过去说没有太好的方法能够处置长时期的遮挡相关，但本文方法关于短时期能出现的遮挡相关的处置，曾经可谓“完美”，能够应答大少数场景了！

03 试验效果

作者经过数值试验和可视化试验证实了本文方法的有效性，首先来看数值试验。

从图4中可以看到，作者在大部分的数据集中都超越了SOTA方法，并且这些SOTA方法大部分都不具有关于遮挡相关的处置才干。读者或许会感觉仿佛作者的目的没有超出SOTA方法太多，咱们须要留意的是，这里计算的是像素之间的距离，而由于投影相关，像素上个位数的差异经过投影变换到实在环球中，往往就会被加大到几米甚至十几米（依据不同的投影尺度），因此在这个畛域，即使是很小的数值增长，也是很大的优化。

接上去是可视化试验，这里作者关键表现了本文方法关于遮挡和长距离跟踪的才干。

从试验结果过去看，本文方法在遮挡出现的时刻照旧能够成功鲁棒的跟踪，而对比方法基本上都会出现跟丢或许跟踪出错的疑问（从图5左图看出），图五的右图关键表现的是长距离跟踪，图中的自行车选手在公路上“飙车”，速度很快，对比方法出现了不同水平的跟丢状况，而本文办规律死死“咬住”了目的，由此表现出本文方法的高性能。

图6则可以看到DINO特色点提取的长处，可以从图中看到DINO提取的特色点十分平均地散布在跟踪物体的各个关键静止位置（关节，轮廓边缘）这些部分是物体静止的关键追踪位置，而其余对比办规律不可成功对这些关键位置的特色提取和鲁棒的追踪。

04 总结

本文提出了DINO-Tracker的追踪框架，能够很好地处置追踪环节中出现的遮挡相关以及长距离的汇总疑问。经过应用DINO模型弱小的先验常识，成功了关于恣意物体的鲁棒追踪。DINO-Tracker不只在短期内表现杰出，还能在较长时期跨度内坚持高精度的追踪才干，这关键得益于其特色点轨迹预测方法能够很好地疏忽短时期内的遮挡，处置了追踪义务中的一个关键难题。

技术框架

<<物联网在修建中究竟表演什么角色

理想汽车最新！DiVE 期间分歧的视频生成分散模型 Vit的高保真>>