Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks
2023-11-18
Abstract
卷积神经网络(cnn)被认为是一类有效的图像识别模型。然而,当利用CNN学习时空视频表示时,这并非不平凡。一些研究表明,执行3D卷积是一种捕获视频中时空维度的有益方法。然而,从头开始开发非常深的3d cnn会导致昂贵的计算成本和内存需求。一个有效的问题是,为什么不为3D CNN回收现成的2D网络。在本文中,我们通过在空间域(相当于2D CNN)上模拟3×3×3卷积滤波器(相当于2D CNN)加上3×1×1卷积,在残差学习框架中设计了瓶颈构建块的多种变体。 及时在相邻要素地图上构建时间连接。此外,我们提出了一种新的架构,称为Pseudo-3D残差网(P3D ResNet),该架构利用了块的所有变体,但在ResNet的不同放置中组成了每个变体,遵循的理念是:随着深度的增加而增强结构的多样性可以提高神经网络处理能力。我们的P3D ResNet相对于3D CNN和基于帧的2D CNN分别对Sports-1M视频分类数据集实现了5.3%和1.8%的明显改进。 我们进一步检查了我们经过预训练的P3D ResNet在五个不同的基准和三个不同的任务下产生的视频表示的综合性能,这些性能表现出优于几种最新技术的性能。
Introduction
当今的数字内容本质上是多媒体:文本,音频,图像,视频等。 随着传感器丰富的移动设备的激增,图像和视频尤其成为Internet用户之间的一种新的通信方式。这鼓励了用于广泛的多媒体理解应用程序的高级技术的开发。 代表学习是使这些技术进步成功的基础。最近,卷积神经网络(CNN)的兴起令人信服地证明了学习视觉表示的高能力,尤其是在图像领域。例如,一组残留网络[7]在ImageNet测试集上达到3.57%的top-5误差,甚至低于报告的人类水平性能的5.1%。但是,视频是具有较大变化和复杂性的帧的时间序列,导致难以学习强大而通用的时空表示形式。
编码视频中的时空信息的一种自然方法是将CNN中的卷积核从2D扩展到3D并训练全新的3D CNN。这样,网络不仅可以访问每个视频帧中存在的视觉外观,还可以访问连续帧中的时间演变。尽管最近的研究报道了令人鼓舞的性能[8,31,33],但3D CNN的训练在计算上非常昂贵,并且与2D CNN相比,模型大小也呈二次增长。以广泛采用的11层3D CNN,即C3D [31]网络为例,模型大小达到321MB,甚至比152层2D ResNet(ResNet152)[7]的模型大小(235MB)大, 很难训练出非常深的3D CNN。更重要的是,与Sports-1M数据集中的帧直接对ResNet152进行微调[10]可能比从头开始对视频进行训练的C3D更好,如图1所示。产生时空视频表示的另一种替代解决方案是在帧的表示上利用池化策略或递归神经网络(RNN),通常是2D CNN的最后一个池化层或全连接层的激活。然而,这类方法仅在顶层的高层特征上建立时间连接,而将相关性保留在底层形式中,例如底层的角或边缘,未被充分利用。
我们在本文中证明,可以通过设计一系列利用空间和时间卷积滤波器的瓶颈构建块来减轻上述限制。具体来说,每个块中的关键部分是一个1×3×3卷积层和一层3×1×1卷积的组合,以并行或级联的方式代替了标准的3×3×3卷积层。这样,模型尺寸显着减小,并且通过在2D CNN中用3×3卷积初始化1×3×3卷积滤波器,还可以充分利用图像域中学习2D CNN的优势。此外,我们提出了一种新颖的伪3D残差网(P3D ResNet),该残差网在整个类似ResNet的体系结构中将每个设计的块放置在不同的位置,以增强网络的结构多样性。因此,我们的p3d resnet中的时间连接从下到上在每个层次上都被构建,学习到的视频表示封装了与视频中的对象、场景和动作相关的信息,使它们成为各种视频分析任务的通用。
这项工作的主要贡献是提出了一系列瓶颈构建块的建议,该瓶颈构建块以经济有效的方式模拟3D卷积。 这也导致了关于如何放置不同块以学习非常深的网络的优美观点,并提出了一种新的P3D ResNet用于视频表示学习。 通过一系列广泛的实验,我们证明了我们的P3D ResNet在五个不同的基准和三个不同的任务上均优于几种最新模型。
Related Work
我们将视频表示学习的方法简略地分为两类:手工制作和基于深度学习的方法。
手工制作的表示学习方法通常从检测时空兴趣点开始,然后用局部表示来描述这些点。 在该方案中,通过扩展图像域的表示,提出了时空兴趣点(STIP)[15],梯度直方图和光流直方图[16],3D梯度直方图[11]和SIFT-3D [23]。 测量3D体积的时间维度。 最近,Wang等。 提出了密集的轨迹特征,该特征以不同的比例从每个帧中密集采样局部斑块,然后在密集的光学场中对其进行跟踪[34]。视频表示学习的最新方法是设计深度架构。Karparthy等人在固定大小的窗口中堆叠基于CNN的帧级表示,然后利用时空卷积学习视频表示[10]。在[25]中,著名的双流架构是通过在可视帧和标记的光流上分别应用两个cnn架构而设计的。通过利用多粒度结构[17、18、21],卷积融合[6],键体积挖掘[39]和时间段网络[36]进一步扩展此体系结构,以进行视频表示学习。在王等人的工作中集中在轨迹中心的时空管上的局部ConvNet响应被合并为视频描述符。 然后,使用Fisher向量[20]将这些本地描述符编码为全局视频表示。最近,LSTM-RNN网络已成功用于对视频中的时间动态建模。 在[9,37]中,利用时间池和堆栈式LSTM网络来组合帧级(光流图像)表示,并发现长期的时间关系以学习更鲁棒的视频表示。Srivastava等。 [28]进一步将视频表示学习任务表述为基于编码器和解码器LSTM的自动编码器模型。
可以观察到,大多数上述基于深度学习的方法都将视频视为用于视频表示学习的帧/光学图像序列,而没有充分利用跨连续帧的时间演变。为了解决这个问题,Ji等人提出了3D CNN。 [8]是直接学习短视频剪辑的时空表示的早期作品之一。稍后在[31]中,Tran等人。设计一种广泛采用的11层3D CNN(C3D),用于在大规模监督视频数据集的背景下学习16帧视频片段上的视频表示,[33]中进一步利用了跨较长片段(100帧)的时间卷积。但是,现有的3D CNN架构的容量极其有限,且计算成本和内存需求昂贵,因此很难训练非常深的3D CNN。我们的方法有所不同,我们不仅提出了用2D空间卷积加上1D时间连接来模拟3D卷积的想法,这种想法更为经济,而且将这种设计集成到了用于视频表示学习的深度残差学习框架中。
P3D Blocks and P3D ResNet
在本节中,我们首先定义用于视频表示学习的3D卷积,可以自然地将其分解为2D空间卷积以对空间信息进行编码,并为时间维度编码1D时间卷积滤波器。然后,在残差学习框架中设计了一个新的瓶颈构建模块家族,即Pseudo-3D(P3D),以同时利用空间和时间卷积滤波器。最后,我们开发了一种新颖的伪3D残差网(P3D ResNet),它在ResNet式架构中的不同位置组成了每个P3D块,并通过性能和时间效率方面的实验研究进一步比较了它的几种变体。
给定一个大小为c×l×h×w的视频剪辑,其中c,l,h和w分别表示通道数,每个帧的剪辑长度,高度和宽度,这是对空间进行编码的最自然的方法 时间信息将利用3D卷积[8,31]。3D卷积可同时对空间信息(如2D滤波器)进行建模,并跨帧构造时间连接。 为简单起见,我们将3D卷积滤波器的大小表示为d×k×k,其中d是内核的时间深度,k是内核的空间大小。因此,假设我们有尺寸为3×3×3的3D卷积滤波器,它可以自然解耦为在空间域上等效于2D CNN的1×3×3卷积滤波器和3×1×1卷积滤波器,如针对1D CNN量身定制的时域。这种解耦的3D卷积可以看作是伪3D CNN,它不仅显着减小了模型尺寸,而且还可以从图像数据中对2D CNN进行预训练,从而赋予Pseudo 3D CNN更多的利用场景和对象知识的能力。 从图像中学到的东西。
受到残差网络(ResNet)[7]在许多具有挑战性的图像识别任务中的最新成功的启发,我们开发了一个名为Pseudo-3D(P3D)块的构建模块家族,在类似ResNet的视频架构中,以取代ResNet中的2D残差单元,追求时空编码。接下来,我们将回顾ResNet中剩余单元的基本设计,然后介绍如何设计我们的P3D块。 最后阐述了每个P3D模块上的瓶颈构建架构。
为了将ResNet中的每个2D残差单元开发成3D架构以编码时空视频信息,我们按照3.1节介绍的Pseudo 3D原理修改了ResNet中的基本残差单元,并设计了几个Pseudo-3D块。 对于涉及两个设计问题的修改并不简单。 第一个问题是关于空间维数(S)的2D滤波器和时域(T)的1D滤波器的模块应该直接或间接地相互影响。 两种类型的过滤器中的直接影响意味着空间2D过滤器的输出作为输入连接到时间1D过滤器(即,以级联方式)。两个过滤器之间的间接影响使连接解耦,从而使每种过滤器都位于网络的不同路径上(即,以并行方式)。 第二个问题是两种滤波器是否都应直接影响最终输出。 因此,在这种情况下的直接影响表示每种滤波器的输出应直接连接到最终输出。
基于这两个设计问题,我们推导了三个不同的P3D块,如图2所示,分别命名为P3D-A到P3D-C。 提供有关它们的体系结构的详细比较,如下所示:
(1)P3D-A:第一个设计考虑了层叠结构,方法是使时间1D滤波器(T)以级联方式跟随空间2D滤波器(S)。 因此,这两种滤波器可以在同一路径中直接相互影响,只有时间一维滤波器直接连接到最终输出,通常可以通过以下方式给出:
(2)P3D-B:第二种设计与第一种设计相似,不同之处在于采用了两个过滤器之间的间接影响,并且两个过滤器以并行的方式位于不同的路径上。 尽管S和T之间没有直接的影响,但它们都直接累积到最终输出中,可以表示为
(3)P3D-C:最后的设计是通过同时建立S,T和最终输出之间的直接影响来折衷P3D-A和P3D-B。 具体来说,为了基于级联的P3D-A架构实现S和最终输出之间的直接连接,我们建立了从S到最终输出的快捷连接,使输出
为:
当指定2D剩余单元的体系结构时,基本2D块会通过瓶颈设计进行修改,以降低计算复杂性。特别是,如图3(a)所示,残差单元采用了3层堆栈,包括1×1、3×3和1×1卷积,而不是单个空间2D滤波器(3×3卷积), 其中第一个和最后一个1×1卷积层分别用于减小和恢复输入样本的尺寸。这种瓶颈设计使中间3×3卷积成为输入和输出尺寸较小的瓶颈。因此,我们遵循这一优雅的方法,并利用瓶颈设计来实现我们提出的P3D块。 本质上类似,对于每个仅由一个空间2D滤波器(1×3×3个卷积)和一个时间1D滤波器(3×1×1个卷积)组成的每个P3D块,我们还分别在两个处放置两个1×1×1个卷积 路径的末端,负责减小然后增加尺寸。 因此,这种瓶颈设计减小了空间2D和时间1D滤波器的输入和输出的尺寸。 图3(b)至3(d)展示了所有三个P3D块上的详细瓶颈构建架构。
为了验证这三个P3D模块的优点,我们首先通过替换50层ResNet中的所有残差单元(ResNet),开发了三个P3D ResNet变体,即P3D-A ResNet,P3D-B ResNet和P3D-C ResNet。 -50)[7]分别带有一种特定类型的P3D块。 介绍了基本ResNet-50和三个P3D ResNet变体之间的性能和时间效率的比较。然后,从结构多样性的观点出发,通过混合所有三个P3D块,提出完整版本的P3D ResNet。
比较是在UCF101 [27]视频动作识别数据集上进行的。 具体来说,ResNet-50的体系结构是根据UCF101视频数据进行微调的。 我们将输入设置为224×224图像,该图像是从调整后的240×320视频帧中随机裁剪的。 此外,根据[36],我们冻结了除第一层以外的所有批处理规范化层的参数,并添加了一个具有0.9辍学率的额外辍学层,以减少过度拟合的影响。
对ResNet-50进行微调后,网络将为每帧预测一个分数,并通过平均所有帧级别的分数来计算视频级别的预测分数。 除额外的时间卷积外,三个P3D ResNet变体的体系结构均使用ResNet-50进行了初始化,并在UCF101上进行了进一步的微调。 对于每个P3D ResNet变体,输入视频剪辑的尺寸设置为16×160×160,它是从尺寸为16×182×242的调整大小的不重叠的16帧剪辑中随机裁剪的。每个帧/剪辑都是随机的 水平翻转以进行数据扩充。 在训练阶段,我们将每个迷你批处理设置为128帧/片段,并通过多个GPU并行实现。 网络参数通过标准SGD优化,初始学习率设置为0.001,每3K迭代后将其除以10。 7.5K次迭代后,训练停止。
表1显示了UCF101上ResNet-50和我们的Pseudo-3D ResNet变体的性能和时间效率。 总体而言,所有三个P3D ResNet变体(即P3D-A ResNet,P3D-B ResNet和P3D-C ResNet)都比ResNet-50表现出更好的性能,只是模型尺寸增加很小。 结果基本上表明了利用我们的P3D块探索时空信息的优势。 而且,我们的P3D ResNet变体的速度非常快,可以达到每秒8.6到9.0个剪辑。
从最近在超深网络设计中追求结构多样性的成功中得到进一步的启发[38],我们设计了一个完整的p3d resnet版本,通过在架构中混合不同的p3d块来增强结构多样性,如图4所示。特别是,我们用p3d-a→p3d-b→p3d-c顺序的p3d块链替换剩余单元。表1还详细说明了完整p3d resnet的性能和速度。p3d-resnet在追求结构多样性的同时,对p3d-a-resnet、p3d-b-resnet和p3d-c-resnet的准确率分别提高了0.5%、1.4%和1.2%,表明随着深度的增加,结构多样性的增强可以提高神经网络的能力。
Spatio-Temporal Representation Learning
我们在更深的152层ResNet上进一步验证了P3D ResNet的完整设计[7],然后生成了通用的时空视频表示。 P3D ResNet的学习是在Sports-1M数据集上进行的[10],这是最大的视频分类基准之一。 它大约包含约113万条带有487个体育标签的视频。 每个标签有1K-3K视频,其中大约5%的视频带有多个标签。 另请注意,当我们下载视频时,大约9.2%的视频URL无效。 因此,我们对剩余的102万个视频进行了实验,并按照官方的划分,即分别对训练,验证和测试集进行了70%,10%和20%的分配。
为了在大型Sports-1M训练集上进行有效的训练,我们从集合中的每个视频中随机选择5个5秒的短视频。 在训练期间,数据丢失和迷你批处理的设置与第3.3节中的设置相同,不同之处在于辍学率设置为0.1。 学习率也初始化为0.001,每60K迭代后除以10。 优化将在150K批次后完成。
我们通过在测试集上测量视频/剪辑分类的准确性来评估学习的P3D ResNet的性能。 具体来说,我们从每个视频中随机抽取20个剪辑,并为每个剪辑采用单一的中心作物,然后将其通过网络传播以获得剪辑级别的预测得分。 通过对视频的所有剪辑级别得分求平均值,可以计算出视频级别得分。
我们比较了以下几种性能评估方法:(1)深度视频(单帧)和(慢速融合)[10]。 前者在每个剪辑的单个帧中执行类似于[14]中的架构的CNN,以预测剪辑级别得分,并在整个网络中以不同时间范围融合每个剪辑中的多个帧,以实现剪辑级别预测。 (2)卷积池[37]在每个剪辑的框架上利用GoogleNet [30]的最终卷积层上的最大池化。 (3)C3D [31]利用片段上的3D卷积来建模时间信息,整个体系结构可以在Sports-1M数据集上从头训练,也可以从[38]中收集的I380K内部数据集的预训练模型中获得。(4)ResNet-152 [7]。 在本次运行中,对152层ResNet进行了微调,并在每个剪辑的一帧中进行使用以生成剪辑级别的分数。
表2总结了性能和比较。总体而言,我们的P3D ResNet相对于ResNet-152(2D CNN)和C3D(3D CNN)的性能提高了1.8%和5.3%(顶级1视频级别的准确性) , 分别。结果基本上表明了通过将3D学习分解为空间空间中的2D卷积和时间维中的1D操作来探索时空信息的优势。不出所料,在整个网络中融合时间信息的深度视频(慢融合)比仅利用一个帧的深度视频(单帧)表现出更好的性能。尽管深度视频(慢速融合),卷积池和我们的P3D ResNet的三个运行都利用了时间融合,但是它们在执行时间连接上的方式根本不同。深度视频(慢速融合)的性能是对空间卷积执行时间卷积以计算激活量的结果,而卷积池则是简单地最大程度地跨时间帧对最终卷积层的输出进行最大处理。结果表明,我们采用空间和时间卷积的不同组合的P3D ResNet改善了深度视频(慢速融合)。这多少表明P3D ResNet受益于网络设计中结构多样性的原理。同样不足为奇的是,P3D ResNet的性能仍然低于卷积池,后者对120帧的剪辑以1 fps的帧速率执行时间合并,使剪辑长度超过120s。相比之下,我们将16个连续帧作为基本单位,它仅覆盖不到0.5s的时间,但具有强大的时空连接,这使我们的P3D ResNet具有更好的泛化能力。
图5进一步可视化了学习到的P3D ResNet模型中的见解。 [36]之后,我们采用DeepDraw工具箱[1],该工具箱在白噪声的输入片段上进行迭代梯度上升。 在学习过程中,它将评估模型是否违反类别标签,并向后传播渐变以修改输入片段。 因此,最终生成的输入片段可被视为P3D ResNet内部类知识的可视化。 我们选择太极拳,单杠,摩托车比赛和拳击这四个类别进行可视化。 如图所示,P3D ResNet模型可以捕获空间视觉模式和时间运动。 以太极拳的类别为例,我们的模型生成一个视频剪辑,其中一个人展示不同的姿势,描述了此动作的过程。
在Sports-1M数据集上训练了我们的P3D ResNet体系结构之后,这些网络可以用作任何视频分析任务的通用表示提取器。 给定视频,我们选择20个视频片段,每个片段的长度为16帧。 然后将每个视频剪辑输入到学习的P3D ResNet架构中,并输出pool5层的2,048维激活作为此剪辑的表示。 最后,将视频中的所有剪辑级别表示形式平均,以生成2,048维视频表示形式。 除非另有说明,否则在以下评估中,我们将此表示称为P3D ResNet表示。
Conclusion
我们提出了伪3D残差网络(P3D ResNet)架构,旨在学习深度网络中的时空视频表示。 特别是,我们研究了在空间维加1D时间连接上使用2D滤波器简化3D卷积的问题。 为了验证我们的主张,我们设计了瓶颈构建块的变体,用于组合2D空间和1D时间卷积,并将它们集成到不同位置的残差学习框架中,以实现结构多样性。 在Sports1M数据集上学习的P3D ResNet架构验证了我们的建议和分析。 在视频动作识别,动作相似性标记和场景识别的背景下对五个数据集进行的实验也证明了我们的P3D ResNet产生的时空视频表示的有效性和一般性。 与其他功能学习技术相比,性能明显提高。
我们未来的工作如下。 首先,注意力机制将被整合到我们的P3D ResNet中,以进一步增强表示学习。 其次,将进行详细研究,研究在训练中增加每个视频片段中的帧时P3D ResNet的性能如何受到影响。 第三,我们会将P3D ResNet学习扩展到其他类型的输入,例如光学流或音频。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)
论文大全
Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks 的相关文章
大数据开发必备面试题Spark篇合集
1 Hadoop 和 Spark 的相同点和不同点 Hadoop 底层使用 MapReduce 计算架构 只有 map 和 reduce 两种操作 表达能力比较欠缺 而且在 MR 过程中会重复的读写 hdfs 造成大量的磁盘 io 读写操作
[551]python实现Mean Shift算法
前文介绍的K Means算法需要指定K值 分组数 本文实现的MeanShift聚类算法不需要预先知道聚类的分组数 对聚类的形状也没有限制 为了更好的理解这个算法 本帖使用Python实现Mean Shift算法 MeanShift算法详细介
数字孪生系统:智慧城市数据可视化
分享几个我觉得很泛用的智慧城市可视化大屏模板 功能齐全且强大 画面美观且酷炫 模板一 智慧城市可视化应用管理平台 整合城市相关数据资源 对公共环境 人员民生 公共安全等领域的核心指标进行态势监测与可视分析 辅助管理者全面掌控城市运行态势 提
Mybatis中xml文件的时间段动态查询
解决办法1 xml特殊字符可以适用转义字符代替 lt lt 小于号 gt gt 大于号
pytorch----Target 2 is out of bounds
问题 多分类网络加了两层全连接后最后输出1类 计算loss时报错Target N is out of bounds 其中的N是正在处理的数据输入的标签 即第几类 是一个 0 类数 1 的整数 最后输出1类与输入的target不符就会报错 解
必读的android 文章- 收藏集 - 掘金
写给 Android 开发者的混淆使用手册 Android 掘金 本文转自 点击打开链接 毫无疑问 混淆是打包过程中最重要的流程之一 在没有特殊原因的情况下 所有 app 都应该开启混淆 首先 这里说的的混淆其实是包括了代码压缩 代码混淆以
前端常用js插件
浏览目录 包管理器 加载器 打包工具 测试框架 框架 断言 覆盖率 运行器 QA 工具 MVC 框架和库 基于 Node 的 CMS 框架 模板引擎 Flux 数据可视化 时间轴 编辑器 文件 函数式编程 响应式编程 数据结构 日期 字符串
直联和间联的区别——直连和间连的区别
直联和间联的区别 直联就是商户直接和银联对接 商户 银联 直联一般商户自己支付手续费 间联就是商户间接和银联对接 商户 第三方支付 银联 间联也要支付 但一般是有人帮你付 直连和间连的区别 直连 指第三方支付直接与商业银行做对接 如果是本行
硬件基础知识
SPI是串行外设接口 Serial Peripheral Interface 的缩写 是一种高速的 全双工 同步的通信总线 SCLK SCLK是一种有固定周期并与运行无关的信号量 CLK CLK是一种脉冲信号 TDNN 时延神经网络 它的两
UE4持续集成打包(Mac脚本自动化打包)
主要通过RunUAT进行打包 win和mac均可以打包 本次打包实现在Mac环境下 使用 Engine Build BatchFiles RunUAT sh 参考命令格式 参考文献1 RunUAT BuildCookRun project
一些优秀的开源轻量级TCP/IP协议栈
以下是一些优秀的开源轻量级TCP IP协议栈 它们适用于嵌入式设备和其他资源受限的环境 lwIP lightweight IP lwIP 是一个非常流行的开源 TCP IP 协议栈 它专门为嵌入式系统设计 具有低内存占用和高效率的特点 lw
【小程序】实现经典2048小游戏
概述 经典小游戏2048 2048小游戏对于逻辑要求还是很有技术含量的 有兴趣的可以看看 详细 以前学习时写的小游戏2048 技术含量还是不错的 有兴趣的可以看看 2048已经封装好了 在主页面直接引入文件可以直接调用 演示图 调用wxml
设计圆和圆柱体
编写一个完整的Java Application 程序 包含类Circle Cylinder Main 具体要求如下 1 编写类Circle 表示圆形对象 包含以下成员 属性 radius 私有 double型 圆形半径 方法 Circle
Python3.X出现AttributeError: module 'urllib' has no attribute 'urlopen'错误
研究用Python写爬虫 下载一个网页 报错代码如下 import urllib def getHtml url page urllib urlopen url html page read return html html getHtml
导致事务@Transactional失效的5种场景
一个程序中不可能没有事务 而 Spring 中 事务的实现方式分为两种 编程式事务和声明式事务 又因为编程式事务实现相对麻烦 而声明式事务实现极其简单 所以在日常项目中 我们都会使用声明式事务 Transactional 来实现事务 Tra
英文学术论文写作——模式识别方向(笔记)
文章目录 文章结构 英文写作tips Latex小技巧 英文学术论文写作经验几乎为0 在老师和师兄们的帮助下 学习到了如何撰写文章 仅限于模式识别方向的 文章结构 文章除去abstract acknowledgment以及reference
深度学习目标检测综述学习
目录 0 摘要 1 引言 2 背景 2 1 问题描述 2 2 目标检测中的关键挑战 3 数据集以及评价指标 3 1 数据集 1 PASCAL VOC 07 12 2 ILSVRC 3 MS COCO 4 Open Image 3 2 指标
vue一行代码实现富文本编辑器
vue中我们可以使用tinymce第三方组件 第一 我们先将tinymce下载下来 下载链接 https pan baidu com s 15hvafdE7czBM9Wdu5sh9Ow 提取码 kv48 然后引入两个文件到我们项目中 第二部
第十一届蓝桥杯 ——互质(gcd求最大公约数)
gcd最大公约数 Rudy的博客 CSDN博客 gcdhttps blog csdn net xiaoyue article details 83239172 ops request misc 257B 2522request 255Fid
随机推荐
go语言exec包调用shell命令
工程中需要用到ffmpeg 想直接用exec包调用shell命令 本来以为很简单 结果折腾了一下午 最后查到了解决方案 假如之前执行报错的语句为 cmd exec Command echo helloworld out err cmd Ou
智能时代悄然到来刷脸支付逐渐成为潮流
随着人脸识别 人工智能 物联网 大数据等前沿技术的迅速发展 智能时代已悄然到来 刷脸支付也逐渐成为一种潮流 如今 刷脸支付愈发常见 除了乘车刷脸 看病刷脸外 值机 安检 登机也都可以刷脸了 机场不用排长队 不用身份证 仅需一张脸即可登机的刷
rabbitmq web界面报错 Access refused
赋予权限就好了 rabbitmqctl set permissions p 当前登录账户的账号
态势感知与态势理解
几个星期前 我与我的一个机构同事碰面 讨论了最新的备受瞩目的袭击事件 他向我提到了一个新词 态势理解 在USB提案中做了8个月的工作后 我对催吐流行语并不陌生 这个词立即引起了人们的注意 但是由于我一直在讨论几天 所以这个词本身正在赢得信誉
【MLOps】第 2 章 : MLOps中的人
大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
备战2023蓝桥国赛-传纸条
题目描述 解析 这道题想了我好久 一开始我是想假如只走一条路线 从 1 1 走到 m n 这种问题该怎么解决呢 针对这种问题我是设了dp k i j 表示走了k步到达 i j 的好心程度之和的最大值 然后根据这个来写出转移方程来计算 后面就
Nginx 队列双向链表结构 ngx_quene_t
队列链表结构 队列双向循环链表实现文件 文件 src core ngx queue h c 在 Nginx 的队列实现中 实质就是具有头节点的双向循环链表 这里的双向链表中的节点是没有数据区的 只有两个指向节点的指针 需注意的是队列链表的内
JVM安全退出(如何优雅的关闭java服务)
https tech imdada cn 2017 06 18 jvm safe exit utm source tuicool utm medium referral 背景 用户 货都到了 购物车里怎么还有刚买的东西 what 产品 有用
如何助力金融贷款企业实现精准营销获客
无论是哪个行业 吸引客户都是核心 许多公司的线下渠道面临着许多障碍 以至于他们不得不采用在线客户获取方法 受影响最大的行业之一是贷款行业 如何获得准确的贷款客户资源 如何赢得客户已经成为企业的一大痛点 过去 信贷员经常使用电话营销 本地促销
IP(OSPF综合实验)
一 实验 1 R4为ISP 其上只能配置IP地址 R4与其他所有直连设备间使用公有IP 2 R3 R5 6 7为MGRE环境 R3为中心站点 3 整个OSPF环境IP地址自定义 4 所有设备均可访问R4的环回 5 减少LSA的更新量 优化
apache Commons-beanutils的使用
1 背景 在java开发过程中 经常会与javabean打交道 像Entity pojo vo dto等等 java应用非常讲究分层架构 因此在各层之间bean的传输与转换非常的繁琐 比如 Student stu new Student s
基于OpenCV的双目测距系统实现
基于OpenCV的双目测距系统实现 The BinocularMeasure System Based on OpenCV Abstract This passage mainly describes how to measure dist
nginx安装配置
1 nginx下载 http nginx org download 选择对应版本的nginx下载 这里选择 nginx 1 21 6 tar gz 2 环境准备 必备环境 sudo yum install y gcc c 必须下载 3 个依
mysql学习笔记(6)_存储过程
原本觉得掌握最基本的语法就行了 但发现老师最近又提到了存储过程 我觉得有必要学习整理一下 以下是我的简单笔记 存储过程的含义以及优点 含义 一组预先编译号的sql语句的集合 理解成批处理语句 优点 1 提高代码的重用性 2 简化操作 3 减
qq机器人如何滑动验证码验证TxCaptchaHelper
当我们再运行QQ机器人时出现 一下信息 提示需要滑动模块验证 复制上中的url 在浏览器打开 点击开始验证 出现验证图片 打开开发者控制台 一般浏览器快捷键为 F12 切换到 网络 拖到滑块 验证成功后 会出现 在 预览 中会看到ticke
16-2_Qt 5.9 C++开发指南_使用样式表Qss自定义界面
进行本篇介绍学习前 请先参考链接01 1 Qt工程实践 Qt样式表Qss 后再结合本篇进行融合学习如何使用样式表定义界面 文章目录 1 Qt样式表 2 Qt样式表句法 2 1 一般句法格式 2 2 选择器 selector 2 3 子控件
[Unity][Aniamtor&Animation]动画状态机设置自定义脚本StateMachineBehaviour
对状态机设置自定义脚本StateMachineBehaviour 这种脚本能够实现什么 优点 通过Animator的状态机就可以实现 敌人AI NPC AI 可以在对应状态机 的动画进行 播放 的时候 生成 特效 音效 以及特定的物品 例如
Linux源码编译开启cgroup blk限制io性能
编译选项 内核5 9 General Setup gt Control Group support gt io controller Enable the block layer gt Block layer bio throttling
mysql基本数据类型
概述 要想学好mysql 了解其支持的基本数据类型以及内部原理是极为重要的 只有这样 我们才能根据不同的业务要求来选择不同的数据类型 实现最佳的存储效果和查询性能 因而本文就着重总结一下mysql支持的数据类型以及内部的存储原理 总体来说
Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks
Abstract 卷积神经网络 cnn 被认为是一类有效的图像识别模型 然而 当利用CNN学习时空视频表示时 这并非不平凡 一些研究表明 执行3D卷积是一种捕获视频中时空维度的有益方法 然而 从头开始开发非常深的3d cnn会导致昂贵的计算
热门标签
编程语言与计算机基础
CDMA
扩频通信
云服务器子系统
基础协议知识
设置熄屏
梯度下降求函数极值
psins代码解析
蓝桥杯复习
B样条曲线
音乐游戏
数据挖掘应用实例
C45
PRMLDL
JAVA算法LC刷
锚点定位
java 调用cmd