CVPR2021 视频目标检测——MM-DistillNet 基于多模态知识提取的自监督多目标检测与跟踪论文笔记/附原文和代码

2023-11-06

本文是CVPR2021最新的视频目标检测的论文
原文地址：https://arxiv.org/abs/2103.01353v1
代码：https://github.com/robot-learning-freiburg/MM-DistillNet
注意：文中的“知识”可以理解为网络提取的特征图

摘要
对象固有的声音属性可以为学习对象检测和跟踪的丰富表示提供有价值的线索。①本文提出了一个新的自我监督的多媒体教学网络框架，该框架由多个teacher组成，他们利用包括RGB、深度和热图像在内的多种形式，同时利用互补的线索，并将知识提取到一个单一的音频student网络中。②提出了新的MTA损失函数，它有助于以自我监督的方式从多模态教师那里提取信息。③为音频学生提出了一个新颖的自我监督pretext任务，能够不依赖标注/注释。
本文主要与之前的StereoSoundNet做对比。
引言
视频中图像和音频等形态为监督提供了线索，可以利用这些线索以自我监管的方式学习更鲁棒的感知模型。场景中对象固有的声音属性还包含丰富的时域和频域信息，声音和视觉的结合使我们能够用一种方式来监督另一种方式，也可以用两种方式来共同监督对方。
检测目标的训练模型需要大量的基础事实注释来进行监督。然而，我们可以通过师生策略联合利用视听学习来训练模型识别产生声音的对象，而不依赖于标记的数据。

跨模态多媒体提取器通过从多模态视觉teacher那里获得互补线索来提取知识，并将其转化为听觉学生。在预测过程中，模型仅使用音频作为输入来检测和跟踪视觉帧中的多个对象
框架如图所示：由多个teacher网络组成，每个teacher网络采用一个特定的模态作为输入，这里作者使用RGB、深度和热图来最大化我们可以利用的互补线索(外观、几何形状、反射率)。teache首先在不同的预先存在的数据集上被单独训练，以预测他们各自形式的边界框。然后，训练音频student网络，只在未标记的视频上学习从麦克风阵列到组合teacher预测的边界框坐标的声音映射。为了做到这一点，作者提出了新的MTA损失，以同时利用互补线索和提取目标检测知识从多模态teacher到音频student网络在自我监督的方式。在预测过程中，音频student网络仅使用声音作为输入来检测和跟踪视觉框架中的对象。此外，提出了一个自我监督的pretext任务来初始化音频student网络，以避免依赖手动注释，加速训练。
本文收集了一个大规模的驱动数据集，其中包含超过113，000个时间同步的RGB、深度、热图和多通道音频模式帧。
该模型还可以仅使用麦克风阵列的声音在视觉帧中执行对象检测和跟踪，允许系统在不使用任何摄像机姿态信息的情况下，在环境中移动时同时检测多辆车辆。
为了减少基础事实标签依赖性，利用模态的共现作为自我监督机制来获得标注。
将来自多个预先训练的模态特定teacher网络的“知识”整合到音频学生网络中，该网络从未标记的视频中学习，并且在推理过程中仅使用音频。该方法在训练时利用了替代模态的互补特征，努力提高整个系统的鲁棒性，而不增加预测的开销。
除了生成伪标签，我们还使用模态特定的教师网络通过知识提炼来指导音频学生网络的训练。该框架并不仅仅是平均不同teacher之间的双重损失，而是使用概率方法来对齐中间师生层的特征。
每个模态特定的“老师”提取目标检测“知识”（可以理解为特征图）给音频学生（用于预测），这可以归类为跨模态知识提取。
技术方法
本节主要介绍了多模态提取框架
用于从一组预先训练的多模态教师网络中提取知识到一个学生中，该学生使用一个未标记的模态作为输入。我们选择RGB、深度和热图像作为教师模式，为学生提供8声道单声道麦克风阵列的音频。具体来说，目标是学习从环境声音的频谱图到边界框坐标的映射在视觉空间中指示车辆位置。

该网络建立在EfficientDet-D2 的基础上，预测视觉空间中的边界框，以及一个音频学生网络，该网络将来自麦克风阵列的声音频谱图作为输入。
每个预先训练的模态特定的教师预测边界框，该边界框指示车辆在它们各自的模态空间中的位置。这些预测被融合以获得单个多教师预测，然后该预测被用作训练音频学生网络的伪标签。为了有效地利用来自特定模态教师的补充线索，提出了多教师对齐(MTA)损失，以将学生的中间表征与教师的中间表征对齐。提出的新pretext任务，以更好地初始化音频学生网络。

3.1. 网络结构

建立在针对特定模式的教师网络的EfficientDet架构之上。EfficientDet有三个主要组件:一个EfficientNet主干，接着是一个双向特征金字塔网络，最后是一个分类和回归。
EfficientNet使用多级移动反向瓶颈单元从输入数据中提取相关特征。为了选择从EfficientNet的哪个阶段提取特征(以及如何将这些特征融合在一起)，EfficientNet通过自动机器学习和手动调整的结合引入了加权双向特征金字塔。网络的最后一个阶段是一个分类器和回归器分支，由一系列可分离的卷积、批量标准化和一种节省内存的swish组成。
使用768×768像素的输入图像分辨率，重复5个BiFPN单元，每个单元有112个通道。
数据集使用：

RGB teacher ：COCO,VOC,imageNet
Depth teacher：Argoverse
Thermal teacher ：FLIR ADAS
MM-DistillNet
音频学生网络学习将车辆检测作为一个回归问题。对音频学生网络采用相同的EfficientNet-D2拓扑结构，该拓扑结构采用8个声道连接的频谱图(代表来自8声道单声道麦克风阵列的环境声音)作为输入，并预测在视觉参考框架中定位车辆的边界框。
首先获得给定时间戳的RGB、深度和热图像三元组，每个三元组的分辨率为1920×650像素。
从麦克风阵列中选择一秒钟的环境声音片段，以图像时间戳为中心，并使用短时傅立叶变换(STFT)为八个麦克风中的每一个生成80×173像素的声谱图。
将光谱图调整到768×768像素的分辨率，以匹配教师的输入比例。
给定这个8通道级联光谱图作为输入，音频学生在不同的纵横比和比例下为每个EfficientDet层产生4个坐标(xmin，ymin，xmax，ymax)(EfficientDet默认使用3个纵横比(1.0，1.0)，(1.4，0.7)，(0.7，1.4)，在3个不同的比例下[2∙0，2∙∗(1.0/3.0)，2∗ ∗(2.0/3.0)]。

3.2. 音频学生的自我监督pretext任务
为音频学生提出了一个简单的pretext任务，计算出现的汽车数量。这项任务旨在通过音频使学生网络能够学习到汽车的数量，仅使用8通道声谱图作为输入。为此，首先使用多个预先培训过的teacher的预测来识别图像中出现的汽车数量。随后，我们使用相应的8通道谱图作为输入到EfficientNet 网络，在其输出端具有MLP分类器，并且我们使用交叉熵损失函数来训练网络以预测场景中的汽车数量。然后，我们使用在这个pretext任务上训练的模型的权重来初始化我们的MM-StephallenT框架中的音频学生网络，同时训练从作为输入的声音频谱图中检测视觉帧中的汽车。

3.3多模态教师的特征提取
使用了两种损失函数

在网络的最终预测中采用目标检测损失函数
使用MTA损失函数来对齐和利用来自模态特定教师和音频学生的中间层的补充线索。

假设我们使用多个教师，可以获得多组包围盒预测。每个教师网络仅接收其输入模态，并预测一组边界框，这些边界框对应于他们对车辆在视觉空间中的位置的最佳个体估计。每个特定模态的老师预测不同数量的边界框。因此，我们需要巩固这样的预测。为此，获得来自RGB、深度和热的三组，它们使用NMS合并在一起，交集超过联合IoU = 0.5。这将从特定于模态的教师那里生成一个统一的预测，在学生使用Focal loss。Focal loss是交叉熵损失的一种形式，带有一个惩罚参数，该参数减少了分类良好的例子的相对损失，允许网络集中在难以分类的训练例子上。
Focal loss：
在这里插入图片描述
α是分配给难分类示例的权重(设置为α = 0.25)，γ是聚焦超参数，用于平衡将难分类示例与简单背景情况(设置为γ = 2.0)进行分类的工作量。
根据MTA损失，目标是利用每一位特定模态教师的中间层所包含的互补线索。为了实现这一点，使得学生和多个教师的特定层中的激活分布是一致的。加强了高效网主干的(p3，p4，p5)层的对齐，使用归一化到[0，1]范围的每个层的注意力图来计算激活的分布。我们将学生注意力图计算为
在这里插入图片描述

其中 Favgis 是一个函数，它通过给定层上神经元输出的平均值来折叠通道维度上的激活张量A，j ∈ {P3，P4，P5}，r是向量第i个元素上的指数，它显示了给定层上高值激活与低值激活的重要性。

在教师网络的模块下，每个模态
P(Ati|mi)
的激活分布指示每个教师的置信度，即给定输入模态，中间表示具有检测车辆的相关关键指示器的高可能性。
通过在所选层的模态特定激活分布的乘积来利用多个教师的注意力图。这里假设模态是独立的，使用概率的链式法则
在这里插入图片描述

如果多种模式在一个边界框上达成一致，则鼓励这种提议的可能性。然而，一个模态也可以以小概率提出一个不相交的包围盒，允许学生学习一个特定模态独有的包围盒。给定每个模态的特征知识，我们有效地估计在场景中检测到汽车的概率。这使得我们能够灵活地将其他知识作为每个边界框的置信度得分，从而减少错误预测的发生。
多教师注意力图计算为
在这里插入图片描述
其中i表示N个模态中的每一个。

MTA loss
在这里插入图片描述
总和从倒金字塔中选择的每个效率网层(例如，p3、p4和p5层)上迭代，s和t代表学生和教师，β = 0.5用于损耗平衡。
最后的优化loss

3.4 跟踪
利用检测到的边界框，并使用连续帧框之间的IoU值将对象与同一轨迹关联起来。将IoU阈值设置为0.5，以将不同时间步长的两个边界框分配给同一个对象。每次检测到置信度高于0.8的对象时，我们都会初始化一个轨迹。通过将其与当前帧的检测进行比较，选择与该轨迹相关的下一个边界框。轨迹和边界框之间的关联过程使得IoU最大化。如果在随后的帧中没有IoU > 0.5的边界框，则轨迹线被设置为非活动的。

实验评估

4.1 多模态视听检测数据集
作者自己收集的，汽车静止的静态状态和近300公里的行驶数据，只保留了场景中至少有一辆车的图像。用于训练检测阶段的子集包含24589个静态日间图像、26901个静态夜间图像、26357个日间驾驶图像和35436个夜间驾驶图像，总计113283个同步多通道音频、RGB、深度图和热图。

4.2训练
评估度量:我们使用标准平均精度度量来评估对象检测性能和中心距离。平均精度是每类精度和召回率曲线下插值区域的类平均。中心距离CDx和CDy度量指示预测精度，因为空间信息不能直接用于音频(预测的边界框中心和基础事实之间可能存在误差)。
参数设置：r=2.0 t=9.0 δ = 1.0和ω = 0.05
所有RGB/深度/热像的原始分辨率为1920×650。根据efficientNet D2变型，将大小调整为768×768。对于音频，在注册时间戳之前0.5秒和之后0.5秒提取一个RGB图像。对这个1秒钟的原始波形进行归一化，并进一步在80个频段的Mel频率范围内对其进行重新采样，得到8 (80，173)个阵列。这进一步归一化为[0-1]，并重新缩放为768×768×8的维数。
4.3定量结果

比较了MM-DistillNet 和 StereoSoundNet网络的i性能。StereoSoundNet使用单个RGB教师和Rank loss来提取信息到音频学生网络。
比较了2M-DistillNet 只使用一个RGB老师网络和MTA 损失，用来训练学生网络。这样可以证明MTA由于Rank loss
比较单独使用2M-DistillNet 深度图和2M-DistillNet 热度图，MTA损失来培训学生音频网络的性能。
与MM-Stephenlnet Avg 进行了比较，通过对单个特定模态的网络激活进行平均，将来自RGB、深度和热图老师的预测结合起来。
假设由任何模态预测的所有边界框都是有效的(在应用IoU=0.5的非最大抑制之后)。所有上述baseline都使用来自麦克风阵列的8通道声谱图作为输入，并经过训练以执行多目标检测。

“2M-DistillNet”指的是使用MTA损失来训练音频学生的双模态提取方法。“平均”指的是平均个别特定模态的教师激活。
由结果很容易看出，不管是多模态的教师训练，还是单教师训练（只是用RGB/深度图/热力图）对于结果的预测，与 StereoSoundNet相比，都具有明显的提升。这说明MTA损失由于RANK loss 损失。
还观察到，使用平均来组合对单个RGB、深度和热力图教师的预测并不能提高性能。
还评估了MTA损失相对于其他损失的比较。

所有的模型都是用相同的mmDistillNet结构训练的，但损失函数不同。‘R，D，T’指RGB，深度，热力图。
其中Avg.表示的意思是平均三个教师模态的特征图。
比较跟踪性能
不同模态教师和pretext任务对音频学生影响的消融研究
4.4. 消融研究
很容易看出，RGB和热力图是性能提升的主要原因
可视化：红色区域代表是汽车的可能性

4.5 定性评估

在这里插入图片描述
结论：

提出MM-DistillNet框架
MTA损失函数优于rank loss

补充说明：
1.EfficientDet 复合系数选择
EfficientDet包含八种不同的架构配置，可在性能和运行时间之间进行权衡。结合微软COCO 、PASCAL VOC和ImageNet创建了一个大型数据集。训练EfficientDet D0-D7来检测这个组合数据集中的对象汽车。根据IoU = 0.5时的平均精度(AP)以及推理时间和每秒浮点运算(FLOPS)来呈现性能。
在这里插入图片描述
2.麦克风数量的影响

左轴(蓝线)显示了网络性能与麦克风数量的关系。右轴(红色)显示使用N个麦克风导致的GLOPS增加。可以看出，在FLOPS中，更多的通道可以在给定的任务中提高性能，而影响可以忽略不计。
3.不同的学生网络
在这里插入图片描述
对比试验，结果显而易见。

4.MTA
在这里插入图片描述
学生注意力图
教师注意力图
在计算教师和学生之间概率分布差异的度量的KLdivas时，对软最大值应用参数t。增加软最大值计算中的t，以适应每个个体概率分布的置信度。
student normalized activation

integrated normalized teacher attention

在这里插入图片描述

pretext任务的比较
夜间白天汽车状态的不同比较
剩下的内容就是实验结果，大家可以去原文自己去看一下实验。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CVPR2021 视频目标检测——MM-DistillNet 基于多模态知识提取的自监督多目标检测与跟踪论文笔记/附原文和代码的相关文章

在 Pytorch 中获取负片（倒置）图像

我想直接从数据加载器获取图像的负片并将其作为张量提供有我可以使用的库吗我试过火炬transforms并没有找到任何不要费力只需使用255 image它会给你一个负面的形象试试吧
检查 PyTorch 张量在 epsilon 内是否相等

如何检查两个 PyTorch 张量在语义上是否相等考虑到浮点错误我想知道元素是否仅相差一个小的 epsilon 值在撰写本文时这是最新稳定版本 0 4 1 中的一个未记录的函数但文档位于master unstable branch
max_length、填充和截断参数在 HuggingFace 的 BertTokenizerFast.from_pretrained('bert-base-uncased') 中如何工作？

我正在处理文本分类问题我想使用 BERT 模型作为基础然后使用密集层我想知道这 3 个参数是如何工作的例如如果我有 3 个句子 My name is slim shade and I am an aspiring AI Engin
推导 pytorch 网络的结构

对于我的用例我需要能够采用 pytorch 模块并解释模块中的层序列以便我可以以某种文件格式在层之间创建连接现在假设我有一个简单的模块如下所示 class mymodel nn Module def init self input
用我自己的值初始化pytorch卷积层

我想知道是否有办法用我自己的值初始化 pytorch 卷积过滤器例如我有一个元组 0 8423 0 3778 3 1070 2 6518 我想用这些值初始化 2X2 过滤器我该怎么做我查找了一些答案但他们大多使用火炬正态分布和其他
在 C++ API 中将一个张量的一大块复制到另一个张量中

我需要复制一行一个张量在c API 转换为另一个张量的某些部分其中开始和结束索引可用在 C 中我们可以使用类似的东西 int myints 10 20 30 40 50 60 70 std vector
如何避免 PyTorch 中的“CUDA 内存不足”

我认为对于 GPU 内存较低的 PyTorch 用户来说这是一个非常常见的消息 RuntimeError CUDA out of memory Tried to allocate X MiB GPU X X GiB total capac
在 PyTorch 中原生测量多类分类的 F1 分数

我正在尝试在 PyTorch 中本地实现宏 F1 分数 F measure 而不是使用已经广泛使用的sklearn metrics f1 score https scikit learn org stable modules generat
尝试理解 Pytorch 的 LSTM 实现

我有一个包含 1000 个示例的数据集其中每个示例都有5特征 a b c d e 我想喂7LSTM 的示例以便它预测第 8 天的特征 a 阅读 nn LSTM 的 Pytorchs 文档我得出以下结论 input size 5 hid
下载变压器模型以供离线使用

我有一个训练有素的 Transformer NER 模型我想在未连接到互联网的机器上使用它加载此类模型时当前会将缓存文件下载到 cache 文件夹要离线加载并运行模型需要将 cache 文件夹中的文件复制到离线机器上然而这些文
pytorch 中的 keras.layers.Masking 相当于什么？

我有时间序列序列我需要通过将零填充到矩阵中并在 keras 中使用 keras layers Masking 来将序列的长度固定为一个数字我可以忽略这些填充的零以进行进一步的计算我想知道它怎么可能在 Pytorch 中完成要么我需要
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
如何更新 PyTorch 中神经网络的参数？

假设我想将神经网络的所有参数相乘PyTorch 继承自的类的实例torch nn Module http pytorch org docs master nn html torch nn Module by 0 9 我该怎么做呢 Let n
Pytorch ValueError：优化器得到一个空参数列表

当尝试创建神经网络并使用 Pytorch 对其进行优化时我得到了 ValueError 优化器得到一个空参数列表这是代码 import torch nn as nn import torch nn functional as F fro
如何从已安装的云端硬盘文件夹中永久删除？

我编写了一个脚本在每次迭代后将我的模型和训练示例上传到 Google Drive 以防发生崩溃或任何阻止笔记本运行的情况如下所示 drive path drive My Drive Colab Notebooks models if p
Pytorch 与 joblib 的 autograd 问题

将 pytorch 的 autograd 与 joblib 混合似乎存在问题我需要并行获取大量样本的梯度 Joblib 与 pytorch 的其他方面配合良好但是与 autograd 混合时会出现错误我做了一个非常小的例子显示串行
TensorFlow 相当于 PyTorch 的 Transforms.Normalize()

我正在尝试推断最初在 PyTorch 中构建的 TFLite 模型我一直在遵循PyTorch 实现 https github com leoxiaobin deep high resolution net pytorch blob 1ee
ValueError：使用火炬张量时需要解压的值太多

对于神经网络项目我使用 Pytorch 并使用 EMNIST 数据集已经给出的代码加载到数据集中 train dataset dsets MNIST root data train True transform transforms T
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
PyTorch：如何批量进行推理（并行推理）

如何在PyTorch中批量进行推理如何并行进行推理以加快这部分代码的速度我从进行推理的标准方法开始 with torch no grad for inputs labels in dataloader predict inputs in

随机推荐

CUDA 分块矩阵乘法

cpp文件 include stdafx h include
mips使用buildroot，交叉静态编译file程序出现ld: cannot find -lz错误解决过程

最近用unbutu X64 版本16 04 使用buildroot 版本2020 2 交叉编译一个mips的目标机因为目标机没有支持库所以很多程序使用静态编译这次的主角是file这个程序运行该程序能知道各类文件的类型及追踪需要的支持库
Verilog实现异步FIFO（重难点）

FIFO总概图来自文章Simulation and Synthesis Techniques for Asynchronous FIFO Design 一个异步FIFO一共由五个基本模块组成分别是 RAM存储器模块 FIFO写地址以及写
分享一个基于springboot+vue的职业生涯规划系统源码

作者计算机源码社个人简介本人七年开发经验擅长Java Python PHP NET 微信小程序爬虫大数据等大家有这一块的问题可以一起交流学习资料程序开发技术解答文档报告 JavaWeb项目微信小程序项目 Python
tp摄像头的默认地址_TP-Link路由器默认管理员密码是什么路由器默认管理员密码介绍【详解】...

TP Link路由器默认管理员密码是多少最近有网友咨询了小编这样的问题其实关于TP Link路由器的默认管理员密码是要根据路由器的型号而介绍的因为有些型号的TP Link路由器是有默认管理员用户名和密码的而有些型号是没有的这对这个
Flutter 容器(5) - SizedBoxSizedBox

SizedBox 两种用法一是可用来设置两个widget之间的间距二是可以用来限制子组件的大小 import package flutter material dart class AuthList extends StatelessW
squid 用户通过NCSA认证

Squid的用户认证设置默认时 Squid本身不带任何认证程序但是可以通过外部认证程序来实现用户认证一般有以下的认证程序 LDAP认证 SMB认证基于mysql的认证基于sock5的密码认证和基于Radius的认证下面介绍常用的
STM32设置为I2C从机

硬件平台 STM32F401 编辑器 keil 5 18 操作系统 win7 一 I2C协议在传输数据的时候 SDA线必须在时钟的高电平周期保持稳定 SDA的高或低电平状态只有在SCL 线的时钟信号是低电平时才能改变起始和停止条件 SC
JavaScript的三大组成

文章目录一 JavaScript三大组成 1 ECMAScript 2 DOM 3 BOM 总结一 JavaScript三大组成 JavaScript的三个部分为 ECMAScript JavaScript语法规范是JS的基础也是核心
SpringBoot打包jar包并后台运行

最近又进步了我一直习惯直接在Intellij Idea中直接运行写好的程序不过也是因为仅仅是写个模拟接口而已后来到新公司要负责java后台开始习惯把项目部署到外部Tomcat去测试或者打成war包让运维去linux上面部署不过
基于OpenCV的视频道路车道检测

基于OpenCV的视频道路车道检测基于OpenCV的视频道路车道检测前言综述运行方法车道检测的实现路面图像二值化基于透视变换提取车道区域基于二次多项式拟合车道线计算曲率半径与车辆的偏移距离用车道区域标注原始图像总结 E
网站服务器评测,9.2分！浪潮服务器受到海外权威专业评测网站肯定

目前浪潮服务器业务覆盖全球120个国家和地区拥有8个全球研发中心 6个全球生产中心以及2个全球服务中心海外权威服务器专业评测网站ServeTheHome 简称STH 曾对浪潮NE5260M5边缘服务器进行测评该服务器斩获9 2的高分
threejs实现一个固定大小的3d标点

需求背景需要在3d模型上实现标注的功能一开始是直接通过添加一个普通的mesh来实现的但是这样就会有一个问题当视图缩放的时候标注也会跟着一起放大缩小影响视觉效果因此需要实现一个不会随着视图一起放大或者缩小的mesh 实现思路明
MongoDB update数据语法

mongodb更新有两个命令 1 update 命令 db collection update criteria objNew upsert multi criteria update的查询条件类似sql update查询内where后面
Qt自定义窗口部件/控件(实现一个十六进制微调框SpinBox)

目录 1 自定义Qt窗口部件控件 2 十六进制微调框 SpinBox 2 1 实现思路 2 2 源码 3 使用方法 3 1 代码添加自定义窗口部件控件 3 2 Qt设计师添加自定义窗口部件控件 3 3 运行效果 4 缺点 1 自定义Q
tomcat线程池配置

以Tomcat8为例配置方式一
dependency-check-maven安全漏洞扫描工具介绍

目录 dependency check maven安全漏洞扫描工具介绍 dependency check maven插件重点参数解析运行命令检查单个maven工程安全漏洞检查多个maven子工程汇总一个报告命令行方式运行扫描报告
压缩感知（Compressed sensing）from wiki

压缩感知 Compressed sensing 也被称为压缩采样 Compressive sampling 或稀疏采样 Sparse sampling 是一种寻找欠定线性系统的稀疏解的技术压缩感知被应用于电子工程尤其是信号处理中用于获取
Java继承和多态之接口

Java继承和多态之接口题目要求仔细阅读右侧编辑区内给出的代码框架及注释在 Begin End 中实现两个数的求和运算和比较具体要求如下编写程序实现两个数的求和运算和比较请在下面的Begin End之间按照注释中给出的提示编写
CVPR2021 视频目标检测——MM-DistillNet 基于多模态知识提取的自监督多目标检测与跟踪论文笔记/附原文和代码

本文是CVPR2021最新的视频目标检测的论文原文地址 https arxiv org abs 2103 01353v1 代码 https github com robot learning freiburg MM DistillNet

CVPR2021 视频目标检测——MM-DistillNet 基于多模态知识提取的自监督多目标检测与跟踪论文笔记/附原文和代码

CVPR2021 视频目标检测——MM-DistillNet 基于多模态知识提取的自监督多目标检测与跟踪论文笔记/附原文和代码 的相关文章

随机推荐

热门标签

CVPR2021 视频目标检测——MM-DistillNet 基于多模态知识提取的自监督多目标检测与跟踪论文笔记/附原文和代码的相关文章