[CVPR’2023] - Generalized Relation Modeling for Transformer Tracking

论文地址：Generalized Relation Modeling for Transformer Tracking

贡献

1. Introduction

过去主流的跟踪方法基本都是是two-stream trackers，分别对template和search region进行特征提取，然后用各种fashion进行cross-relation。

最近，one-stream pipeline被提出联合特征提取和relations过程。如图1（b）。

最近的方法证明让search region 和template 尽可能的相互关联（global cross-relation modeling）是对 target-specific 的特征生成有益的。

但是本文认为search region中并不是所有的部分都需要强制与template关联。因为由于跟踪中的cropping strategy裁剪策略，也就是template一般裁剪2倍目标大小，而搜索区域裁剪4倍目标大小。这意味无论是模板帧还是搜索区域都有一大部分是背景，其中可能存在相似目标。这会导致干扰。

搜索区域中的背景token可能会与模板建立交叉关系，最终可能对定位造成混淆。
模板区域中的token与全局搜索区域建立交叉关系，可能会导致模板特征的质量下降

所以本文提出generalized relation modeling method来自适应地选择适当的搜索标记来与模板交互。把template和 search tokens分为三类，template token一类，search tokens两类。只有适合cross-relation modeling的search token会与template token交互。

用个lightweight prediction module来划分search token，自适应的决定哪些search token适合cross-relation modeling。但是有两个问题：1）不同token类别的独立relation modeling很难并行训练。2）离散token 类别不可微，无法学习。因此本文使用attention masking策略来统一将独立注意力操作为一个操作。引入Gumbel-softmax技术来是的离散token类别可微。

我们提出了 Transformer 跟踪器的关系建模的广义公式，它将输入token分为三类，并使模板和搜索区域之间的交互更加灵活。
为了实现广义关系建模，我们设计了一个token划分模块来自适应地对输入token进行分类。引入注意力mask策略和 Gumbel-Softmax 技术来促进所提出模块的并行计算和端到端学习。
我们进行了大量的实验和分析来验证我们方法的有效性。所提出的 GRM 在六个具有挑战性的视觉跟踪基准上表现出了出色的结果。

2.1. Visual Tracking Paradigms

2.2. Trackers with Dynamic Designs

3. Method

3.1. Preliminary

开始和one-stream的方法一样，把template和search region 进行划分成patch，并patch embedding，所有token作为序列送入encoder，encoder layer的操作如下

表示concatenation操作。最终输出一个和search region一样大小的特征图，这个特征图作为Prediction Head的输入。

3.2. Generalized Relation Modeling

如图，把输入token分为三类，template token作为, 搜索tokens分为和。

聚合和的信息

聚合所有tokens

当搜索token全被划为（背景）的情况下注意力变为双流范式，当搜索token全被划为（目标）的情况下注意力变为单流范式。也就是作者说的广义关系建模是单流双流两种方案的集合。

3.3. Adaptive Token Division

search tokens的分类网络，每个encoder layer一个learnable prediction module。将最大池化后的模板特征按通道concat到搜索特征中，然后送入MLP。

和表示第i层search token归为（背景）和的概率。选择更高概率来决定类别。

首先并行训练的问题。受DynamicViT启发，应用attention masking 策略。

首先把 probabilities 转换成one-hot 类别。然后

定义两个one-hot 向量来代表template和search tokens。的第一列全为1，其他两列为0，表示所有template token固定为。而则通过在二元分类前面再加一列0来得到，意味着没有search token被分类成。根据所有token，构建attention mask 。

表示token i是否可以根据关系建模规则聚合token j的信息，对应于公式2,3,4。通过计算注意掩码的Hadamard积和所有输入标记的注意权重矩阵，我们可以将三种注意操作合并为具有相同功能的单个操作。

然后，由于search token的离散类别不可微。应用Gumbel-Softmax技术，通过重新参数化技巧从具有类概率π的分类分布中绘制样本:

其中g ~ Gumbel(0,1)，argmax运算被softmax运算取代为连续可微的近似:

在训练阶段，使用Eq.(8)采样的离散分类D来划分前向的搜索令牌，并从Eq.(9)中的连续Gumbel-Softmax近似计算后向的梯度。torch里面也有直接实现的torch.nn.functional.gumbel_softmax()，Gumbel softmax trick。

3.4. Target Prediction Head

用了OSTrack的center head，一个2D特征图来预测目标的位置，它由三个卷积分支组成，分别负责中心分类、偏移回归和大小回归。中心分类分支输出一个分数图，其中每个分数表示目标中心位于相应位置的置信度。利用偏移回归分支对离散化误差进行补偿。大小回归分支预测目标的高度和宽度。选取中心分数图中置信度最高的位置作为目标位置，并对其进行回归