TransCenter: Transformers with Dense Queries for Multiple-Object Tracking-程序员宅基地

技术标签: MOT  多目标跟踪(MOT)  目标追踪  

论文地址:TransCenter: Transformers with Dense Queries for Multiple-Object Tracking


主要贡献:

  1. 使用transformer进行多目标中心追踪,定义为TransCenter
  2. 提出多尺度密集query推理位置热图,·使用学习层在当前图的编码上计算得出。

介绍和相关工作

作者认为TransTrack 和 TrackFormer使用Bbox表示行人是很容易理解的,因为检测中边界框也是广泛使用的,但是当处理密集场景的情况,基于边界框的追踪方法往往会有很多缺点,并且基于框的方法往往由于重叠性很难处理遮挡问题。本论文,作者基于Transformer的center检测方法,去解决遮挡问题。

首先第一个困难就是获得密集表示(如中心热图),为此作者提出使用(像素级别)密集多尺度query。除了允许基于热图的MOT外,密集query的使用克服了用少量query查询解码器所带来的限制。

TransCenter有两个不同的解码器:一个用于行人检测,一个用于行人追踪。两个解码器基于当前图片在不同的可学习层提取query。当前帧的的缓存(transformer编码器的输出)送于检测解码器,过去帧的缓存送到追踪解码器。

基于点的检测方法表面了基于anchor的检测方法对于MOT来说不一定是最合适的,作者这里也是使用点来进行追踪。

TransCenter

过去的基于Transformer的工作都尝试学习边界框的推理,但是作者探索了一种另外的可替代的方法:热图。但是,不同于边界框,热图是密集的,而不是稀疏的。所以,作者引入了密集多尺度query,并且这应该是第一次使用密集query的特征图来进行缩放输入图像。实验中,decoder大概有14k个query。考虑到内存损耗,受可变卷积启发,提出了可变解码器。

作者将MOT任务分解为两个子任务,一个是在时间 t t t的目标检测任务,以及和时间 t − 1 t-1 t1的检测进行关联的关联任务。通过使用全可变性双解码结构,两个任务平行工作。检测解码器的输出用于估计检测的中心和大小,通过和追踪解码器的组合,估计目标的位移。通过组合中心热图和一个双向解码结构,目标关联不仅可以依赖几何特征(IoU),还可以依赖解码器的视觉特征。

概述

网络总体框架如下图所示:
在这里插入图片描述
t t t帧和 t − 1 t-1 t1帧的视频图像喂入CNNbackbone产生多尺度特征,然后通过可变编码器分别产生缓存 M t M_t Mt M t − 1 M_{t-1} Mt1 M t M_t Mt通过两个query学习网络(QLN)获得密集多尺度检测和追踪query( D Q T DQ_T DQT T Q t TQ_t TQt)。 D Q T DQ_T DQT T Q t TQ_t TQt顺带 M t M_t Mt M t − 1 M_{t-1} Mt1分别喂入检测和追踪可变性解码器,获得输出多尺度检测和追踪特征( D F t DF_t DFt T F t TF_t TFt),用于估计中心热图和目标尺寸。所有的多尺度特征和生成的 t − 1 t-1 t1帧的中心热图一起计算每个中心点的位移。

密集多尺度query

传统的Transformer输出和输出元素相同,这些输出和实体相关(行人边界框)。当推导中心热图的时候,一个像素成为行人中心的概率成为了这样的实体,需要解码器来获得这些编码器加上QLN产生的多尺度密集query。两个QLN,一个用于前向传播进行像素级处理,获得 D Q t DQ_t DQt,第二个通过处理 D Q t DQ_t DQt来获得 T Q t TQ_t TQt。都送入完全可变性双解码器中。

完全可变性双解码器

通过两个子可变性解码器分别平行处理检测和追踪两个子任务,检测解码器通过 D T t DT_t DTt M t M_t Mt,加上注意力模块获得 I t I_t It的目标检测,追踪解码器通过 T Q t TQ_t TQt M t − 1 M_{t-1} Mt1来将检测目标和他们在过去图片 I t − 1 I_{t-1} It1上的位置进行关联。

具体的检测编码器通过多尺度特征 D Q t DQ_t DQt输出多尺度检测特征 D F t DF_t DFt,用于寻找目标中心和边界框大小。 可变形追踪编码器找到 M t − 1 M_{t-1} Mt1中的目标,将他们和 t t t中的目标进行关联。为此,追踪编码器中的多头可变性注意力实现了多尺度特征 T Q t TQ_t TQt M t − 1 M_{t-1} Mt1之间的时序交叉关联,输出多尺度追踪特征 T F t TF_t TFt T F t TF_t TFt包含用于估计位移的时序信息。

检测和追踪解码器都输入密集query特征图,同属输出密集信息。但是传统Transformer中的多头注意力模型占存很大且算力复杂,为此作者使用可变形多头注意力层来代替传统注意力层处理多尺度特征。

中心、大小和追踪分支

解码器生成的两个多尺度特征图 D F t DF_t DFt T F t TF_t TFt分别缩放为原图的1/64, 1/32, 1/16 和1/8的分辨率大小。对于中心点和目标大小分支,不同分辨率的特征图通过可变性卷积和双线性差值进行组合,如下图结构:
在这里插入图片描述
最终获得1/4的原图分辨率大小的特征图 C t ∈ [ 0 , 1 ] H / 4 × W / 4 C_t\in [0,1]^{H/4\times W/4} Ct[0,1]H/4×W/4 S t ∈ [ 0 , 1 ] H / 4 × W / 4 × 2 S_t\in [0,1]^{H/4\times W/4\times 2} St[0,1]H/4×W/4×2 S t S_t St的两个通道编码了长和宽。

对于追踪分支,两个多尺度特征通过相同的(不同参数)上采样获得两个1/4分辨率大小特征图。两个特征图和下采样后的过去的中心热图 C t − 1 C_{t-1} Ct1进行concat,和其他分支一样,一个卷积层块计算最终的输出,如目标位移 T t ∈ R H / 4 × W / 4 × 2 T_t\in R^{H/4\times W/4\times 2} TtRH/4×W/4×2,两个通道代表水平和垂直位移。

训练

TransCenter通过联合学习目标中心热度图的分类任务和一个目标大小及追踪位移的回归任务组成。

中心focal_loss:
为了训练中心分支,需要构建GT热度图 C ∗ ∈ [ 0 , 1 ] H / 4 × W / 4 C^*\in [0,1]^{H/4\times W/4} C[0,1]H/4×W/4。我们通过考虑以每一个 K > 0 K >0 K>0为中心的高斯核集的最大响应构造 C ∗ C^∗ C。对于每个像素位置 ( x , y ) (x,y) (x,y),GT热图表示为:
C x y ∗ = max ⁡ k = 1 , … , K G ( ( x , y ) , ( x k , y k ) ; σ ) (1) \mathbf{C}_{x y}^{*}=\max _{k=1, \ldots, K} G\left((x, y),\left(x_{k}, y_{k}\right) ; \sigma\right) \tag{1} Cxy=k=1,,KmaxG((x,y),(xk,yk);σ)(1)
其中 ( x k , y k ) (x_k,y_k) (xk,yk)为GT框的中心, G ( ⋅ ; ⋅ ; σ ) G(·;·;σ) G(σ)表示以σ为传播因子的高斯核,实验中设置为目标大小。考虑到GT C ∗ C^∗ C和推理 C C C中心热图,使用中心focal loss L c L_c Lc计算损失: L C = 1 K ∑ x y { ( 1 − C x y ) α log ⁡ ( C x y ) C x y ∗ = 1 ( 1 − C x y ∗ ) β ( C x y ) α log ⁡ ( 1 − C x y )  otherwise  (2) L_{\mathrm{C}}=\frac{1}{K} \sum_{x y}\left\{\begin{array}{ll} \left(1-\mathbf{C}_{x y}\right)^{\alpha} \log \left(\mathbf{C}_{x y}\right) & \mathbf{C}_{x y}^{*}=1 \\ \left(1-\mathbf{C}_{x y}^{*}\right)^{\beta}\left(\mathbf{C}_{x y}\right)^{\alpha} \log \left(1-\mathbf{C}_{x y}\right) & \text { otherwise } \end{array}\right. \tag{2} LC=K1xy{ (1Cxy)αlog(Cxy)(1Cxy)β(Cxy)αlog(1Cxy)Cxy=1 otherwise (2)
缩放因子α = 2 ,β = 4。

稀疏回归损失:
S S S T T T只在那些目标中心存在的位置进行监督,例如在 C x y ∗ = 1 C^*_{xy}=1 Cxy=1使用L1损失进行监督:
L S = 1 K ∑ x y { ∥ S x y − S x y ∗ ∥ 1 C x y ∗ = 1 0  otherwise  (3) L_{\mathrm{S}}=\frac{1}{K} \sum_{x y}\left\{\begin{array}{ll} \left\|\mathbf{S}_{x y}-\mathbf{S}_{x y}^{*}\right\|_{1} & \mathbf{C}_{x y}^{*}=1 \\ 0 & \text { otherwise } \end{array}\right. \tag{3} LS=K1xy{ SxySxy10Cxy=1 otherwise (3)

L t L_t Lt L s L_s Ls使用追踪输出和GT相似计算。并且为了弥补稀疏问题,加入一个额外的L1回归损失,表示为 L R L_R LR计算由 S t S_t St计算的边界框的中心和GT中心的损失。

总体损失为所有损失之和: L = L C + λ S L S + λ T L T + λ R L R (4) L=L_{\mathrm{C}}+\lambda_{\mathrm{S}} L_{\mathrm{S}}+\lambda_{\mathrm{T}} L_{\mathrm{T}}+\lambda_{\mathrm{R}} L_{\mathrm{R}} \tag{4} L=LC+λSLS+λTLT+λRLR(4)

实验

匹配关联还是直接使用的匈牙利算法,保留60帧。
网络方面,输入图片为640 × 1088,编码器和解码器有6层256维度的8个注意力头。QLN由连个全连接层加rulu几号组成。CNN的bakbone为ResNet-50。训练损失权重 λ S = 0.1 , λ R = 0.5 、 λ T = 1.0 λ_S = 0.1, λ_R = 0.5、 λ_T = 1.0 λS=0.1,λR=0.5λT=1.0,总体优化为AdamW优化器。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_41214679/article/details/115528784

智能推荐

React学习记录-程序员宅基地

文章浏览阅读936次,点赞22次,收藏26次。React核心基础

Linux查磁盘大小命令,linux系统查看磁盘空间的命令是什么-程序员宅基地

文章浏览阅读2k次。linux系统查看磁盘空间的命令是【df -hl】,该命令可以查看磁盘剩余空间大小。如果要查看每个根路径的分区大小,可以使用【df -h】命令。df命令以磁盘分区为单位查看文件系统。本文操作环境:red hat enterprise linux 6.1系统、thinkpad t480电脑。(学习视频分享:linux视频教程)Linux 查看磁盘空间可以使用 df 和 du 命令。df命令df 以磁..._df -hl

Office & delphi_range[char(96 + acolumn) + inttostr(65536)].end[xl-程序员宅基地

文章浏览阅读923次。uses ComObj;var ExcelApp: OleVariant;implementationprocedure TForm1.Button1Click(Sender: TObject);const // SheetType xlChart = -4109; xlWorksheet = -4167; // WBATemplate xlWBATWorksheet = -4167_range[char(96 + acolumn) + inttostr(65536)].end[xlup]

若依 quartz 定时任务中 service mapper无法注入解决办法_ruoyi-quartz无法引入ruoyi-admin的service-程序员宅基地

文章浏览阅读2.3k次。上图为任务代码,在任务具体执行的方法中使用,一定要写在方法内使用SpringContextUtil.getBean()方法实例化Spring service类下边是ruoyi-quartz模块中util/SpringContextUtil.java(已改写)import org.springframework.beans.BeansException;import org.springframework.context.ApplicationContext;import org.s..._ruoyi-quartz无法引入ruoyi-admin的service

CentOS7配置yum源-程序员宅基地

文章浏览阅读2w次,点赞10次,收藏77次。yum,全称“Yellow dog Updater, Modified”,是一个专门为了解决包的依赖关系而存在的软件包管理器。可以这么说,yum 是改进型的 RPM 软件管理器,它很好的解决了 RPM 所面临的软件包依赖问题。yum 在服务器端存有所有的 RPM 包,并将各个包之间的依赖关系记录在文件中,当管理员使用 yum 安装 RPM 包时,yum 会先从服务器端下载包的依赖性文件,通过分析此文件从服务器端一次性下载所有相关的 RPM 包并进行安装。_centos7配置yum源

智能科学毕设分享(算法) 基于深度学习的抽烟行为检测算法实现(源码分享)-程序员宅基地

文章浏览阅读828次,点赞21次,收藏8次。今天学长向大家分享一个毕业设计项目毕业设计 基于深度学习的抽烟行为检测算法实现(源码分享)毕业设计 深度学习的抽烟行为检测算法实现通过目前应用比较广泛的 Web 开发平台,将模型训练完成的算法模型部署,部署于 Web 平台。并且利用目前流行的前后端技术在该平台进行整合实现运营车辆驾驶员吸烟行为检测系统,方便用户使用。本系统是一种运营车辆驾驶员吸烟行为检测系统,为了降低误检率,对驾驶员视频中的吸烟烟雾和香烟目标分别进行检测,若同时检测到则判定该驾驶员存在吸烟行为。进行流程化处理,以满足用户的需要。

随便推点

STM32单片机示例:多个定时器同步触发启动_stm32 定时器同步-程序员宅基地

文章浏览阅读3.7k次,点赞3次,收藏14次。多个定时器同步触发启动是一种比较实用的功能,这里将对此做个示例说明。_stm32 定时器同步

android launcher分析和修改10,Android Launcher分析和修改9——Launcher启动APP流程(转载)...-程序员宅基地

文章浏览阅读348次。出处 : http://www.cnblogs.com/mythou/p/3187881.html本来想分析AppsCustomizePagedView类,不过今天突然接到一个临时任务。客户反馈说机器界面的图标很难点击启动程序,经常点击了没有反应,Boss说要优先解决这问题。没办法,只能看看是怎么回事。今天分析一下Launcher启动APP的过程。从用户点击到程序启动的流程,下面针对WorkSpa..._回调bubbletextview

Ubuntu 12 最快的两个源 个人感觉 163与cn99最快 ubuntu安装源下包过慢_un.12.cc-程序员宅基地

文章浏览阅读6.2k次。Ubuntu 12 最快的两个源 个人感觉 163与cn99最快 ubuntu下包过慢 1、首先备份Ubuntu 12.04源列表 sudo cp /etc/apt/sources.list /etc/apt/sources.list.backup (备份下当前的源列表,有备无患嘛) 2、修改更新源 sudo gedit /etc/apt/sources.list (打开Ubuntu 12_un.12.cc

vue动态路由(权限设置)_vue动态路由权限-程序员宅基地

文章浏览阅读5.8k次,点赞6次,收藏86次。1.思路(1)动态添加路由肯定用的是addRouter,在哪用?(2)vuex当中获取到菜单,怎样展示到界面2.不管其他先试一下addRouter找到router/index.js文件,内容如下,这是我自己先配置的登录路由现在先不管请求到的菜单是什么样,先写一个固定的菜单通过addRouter添加添加以前注意:addRoutes()添加的是数组在export defult router的上一行图中17行写下以下代码var addRoute=[ { path:"/", name:"_vue动态路由权限

JSTL 之变量赋值标签-程序员宅基地

文章浏览阅读8.9k次。 关键词: JSTL 之变量赋值标签 /* * Author Yachun Miao * Created 11-Dec-06 */关于JSP核心库的set标签赋值变量,有两种方式: 1.日期" />2. 有种需求要把ApplicationResources_zh_CN.prope

VGA带音频转HDMI转换芯片|VGA转HDMI 转换器方案|VGA转HDMI1.4转换器芯片介绍_vga转hdmi带音频转换器,转接头拆解-程序员宅基地

文章浏览阅读3.1k次,点赞3次,收藏2次。1.1ZY5621概述ZY5621是VGA音频到HDMI转换器芯片,它符合HDMI1.4 DV1.0规范。ZY5621也是一款先进的高速转换器,集成了MCU和VGA EDID芯片。它还包含VGA输入指示和仅音频到HDMI功能。进一步降低系统制造成本,简化系统板上的布线。ZY5621方案设计简单,且可以完美还原输入端口的信号,此方案设计广泛应用于投影仪、教育多媒体、视频会议、视频展台、工业级主板显示、手持便携设备、转换盒、转换线材等产品设计上面。1.2 ZY5621 特性内置MCU嵌入式VGA_vga转hdmi带音频转换器,转接头拆解

推荐文章

热门文章

相关标签