2021:VinVL: Revisiting Visual Representations in Vision-Language Models

2023-10-27

**

摘要

**

        本文详细研究了视觉语言(VL)任务的视觉表示的改进,并开发一种改进的对象检测模型,以提供图像的对象为中心的表示。与最广泛使用的bottom-up和top-down模型相比,新的模型更大,为VL任务设计的更好,在更大的训练语料库(结合多个公共注释的对象检测数据集)上预训练,因此,它可以生成更丰富的视觉对象和概念集合的表示。以前的VL研究主要关注改善视觉-语言融合模型,而不影响对象检测模型的改进,但我们发现在VL模型中视觉特征非常重要。在我们的实验中,我们将新的对象检测模型输入到一个基于Transformer的VL融合模型OSCAR,并利用一个改善的方法OSCAR+来预训练VL模型,并在广泛的下游VL任务上对其进行微调。我们的结果表明,新的视觉特征显著提高了所有VL任务的性能,在7个公共基准上创建了最先进的结果。

一、介绍

        视觉语言预训练(VLP)已被证明对广泛的VL任务有效,VLP通常包括两阶段:(1)一个对象检测模型进行预训练,将图像和图像中的视觉对象编码为特征向量,(2)一个跨模态融合模型进行预训练,以融合文本和视觉特征。本文主要关注改善对象为中心的视觉表示,并提出一个全面的实证研究,以证明视觉特征在VL模型中的重要性。

        在上述工作中,一个广泛使用的对象检测(OD)模型在VisualGenome数据集上训练,OD模型提供了一个以对象为中心的图像表示,并已在许多VL模型中被用作一个黑盒。本工作中,我们预训练一个基于ResNeXt-152 C4结构的大规模对象属性的检测模型。与[2]的OD模型相比,新模型为VL任务设计更好,更大,在更多的数据上训练,结合多个公共对象检测数据集,包括COCO,OI,Objects365和VG。结果,我们的OD模型在广泛的VL任务上实现了更好的结果,如表1所示。与其他典型的OD模型相比,如在OpenImages上训练的X152-FPN,我们的新模型可以编码更多样化的视觉对象和概念集合(例如,为1848个对象类别和524个属性类别产生视觉表示),如图1。

         为验证新OD模型的有效性,我们在一个包含885万的文本-图像对的公共数据集上预训练一个基于Transformer的跨模态融合模型OSCAR+,其中这些图像的视觉表示通过新OD模型产生,并在OSCAR+预训练期间固定,然后,对已训练过的OSCAR+进行微调,用于广泛的下游任务,如VQA,GQA,NLVR2,和COCO文本图像检索,和VL生成任务,如COCO图像标注和NoCaps。我们的结果表明,新的OD模型产生的以对象为中心的表示显著提高所有VL任务的性能,通常在强大的基线使用经典OD模型[2],创建最新结果,包括GQA没有发布的预训练模型已经超过故意设计的神经状态机(NSM)[12]。我们将向研究界发布新的OD模型。

        本工作的主要贡献总结如下:(1)我们提出了一种全面的实证研究来证明视觉特征在VL模型中的重要性;(2)我们开发了一种新的对象检测模型,它们相比于经典的OD模型可以产生更好的视觉特征,并大大提高了跨多个公共基准的所有主要VL任务的最新结果;(3)我们对预训练过的对象检测模型进行详细的消融实验,以研究由于对象类别的多样性、视觉属性训练、训练数据规模、模型尺寸和模型结构方面的不同设计选择,对性能改进的相对贡献。

 二、改善视觉语言(VL)中的视觉(V)

        基于深度学习的VL模型通常包含两个模块:一个图像理解模块Vision和一个跨模态理解模块VL:

 其中,Img和w分别是视觉和语言模态的输入,Vision模块的输出包含q和v,q是图像的语义表示,如标签或接策的对象,v分布表示图像在高维潜在空间的表示,如通过VG预训练的Faster RCNN模型产生的边界框或区域特征。大多VL模型只使用视觉特征v,而最近提出的OSCAR模型表示,q可以作为学习更好的视觉-语言共同表示的anchors,从而提高各种VL任务的性能。w和y在不同的VL任务中存在差异,在VQA中,w是问题,y是需要预测的答案。

       受预训练模型在各种NLP任务中的成功的启发,视觉语言预训练(VLP)通过(1)用Transformer统一视觉和语言建模VL,(2)用大规模的文本-图像语料库预训练统一的VL,在跨模态理解模块VL中已经取得了显著的成功。然而,最近在VLP上的工作将图像理解模块Vision视为一个黑盒,自三年前开发经典OD模型[2]以来,尽管在改进目标检测方面通过1)开发更多样化、更丰富、更大的训练数据集(如开放图像和对象365),2)在目标检测算法方面获得了新的见解,如特征金字塔网络[23]、一阶段密集预测[24]和无锚检测器[37],3)利用更强大的gpu来训练更大的模型。

        本工作中,我们关注改善Vision以实现更好的视觉表示,我们通过丰富视觉对象和属性种类,并扩大模型尺寸和在一个更大的OD数据集上训练,开发了一种新的OD模型,因此在广泛的VL任务上实现了先进结果。将在本节的其余本分详细介绍如何开发新的OD模型,在第3节中描述OSCAR+在VL预训练中的使用。

2.1 对象检测预训练

        为了改进VL任务的OD模型,我们利用了四个公共对象检测数据集。由于大多数数据集没有属性注释,我们采用了预训练和微调策略来构建我们的OD模型。我们首先在一个由四个公共数据集组成的大规模语料库上预训练一个OD模型,然后使用VisualGenome上的一个额外属性分支对模型进行微调,使其能够检测对象和属性。

        数据:表2总结了四个公共数据集,这些数据集有着互补的特征,在数据大小、对象词汇和每个类中的注释数量方面非常不平衡。我们采取以下步骤,通过结合这四个数据集来构建一个统一的语料库。

        1.首先,为了增强尾类的视觉概念,我们对OpenImages和Objects365执行类感知采样,使每个类至少获得2000个实例,分别得到2.2M和0.80M图像。

        2. 为了平衡每个数据集的贡献,我们用8个COCO(8×0.11M)、8个VG(8×0.1M)、2个类感知采样Objects365(2×0.8M)和一个类感知采样OpenImages(2.2M)的副本将四个数据集合并。

        3. 为了统一它们的对象词汇表,我们使用VG词汇表及其对象别名作为基本词汇表,如果它们的类名或别名匹配,则将来自其他三个数据集的类合并到一个VG类中,如果没有找到匹配,则添加一个新的类。

        4. 最后,我们保留了那些包含至少30个实例的所有VG类,导致其他三个数据集中的1594个和254个类,这些类不能映射到VG词汇表,导致一个包含1848个类的合并对象检测数据集。

        模型结构(FPN vs. C4):虽然[23]表明FPN模型在目标检测方面优于C4模型,但最近的研究[14]表明,FPN并没有为VL任务提供比C4更有效的区域特征,这也得到了我们的实验结果2的证实。因此,我们进行了一组精心设计的实验,详见附录E,并找到了两个主要原因。首先,C4模型中用于区域特征提取的所有层都使用ImageNet数据集进行预训练,而FPN模型的多层感知器(MLP)头则没有进行预训练。结果证明,VG数据集仍然太小,无法为VL任务训练出足够好的视觉特征,并且使用Imagenet预先训练的权重是有益的。第二是由于不同的网络架构(CNN vs. mlp),C4中使用的卷积头比FPN的MLP头对编码视觉信息有更好的诱导偏差。因此,在本研究中,我们使用C4架构进行VLP。

        模型预训练:按照对象检测训练中的常见做法,我们冻结了第一个卷积层、第一个残差块和所有的批处理范数层。我们还使用了几种数据增强方法,包括水平翻转和多尺度训练。为了使用X152-C4架构训练检测模型,我们从ImageNet-5K checkpoint[40]初始化模型主干,并以16张图像训练1.8M迭代。

2.2 向模型注入属性信息

        在[2]之后,我们向预先训练过的OD模型添加一个属性分支,然后对VG上的OD模型进行微调,以注入属性信息(524个类)。由于对象表示是在对象检测预训练阶段预训练的,我们可以通过选择更大的属性损失权重1.25来关注在学习属性上的VG微调(原来用0.5),因此,我们的微调模型在检测VG对象和属性方面显著优于以前模型。

2.3 用于VL任务的高效区域特征提取器

        由于有一组更丰富的对象和属性,经典的类感知非极大抑制(NMS)后处理需要更多时间来消除重叠的边界框,使得特征提取过程非常缓慢。为提高效率,我们将类感知的NMS替换为只执行一次NMS的类无关的NMS,我们还用[2]中使用的没有dilation的卷积层替换耗时的dilation=2的卷积层。这两种替代使区域特征提取过程比[2]快得多,且VL下游任务没有任何精度下降。

        总之,预先训练好的OD模型作为图像理解模块,如公式(1)所述,为下游VL任务生成视觉演示(q,v)。这里,q是检测到的对象名称的集(文本),v是区域特征的集,每个区域特征记为(ˆv,z),其中vˆ是从检测头的最后一个线性分类层(即P=2048)输入的P维表示,z是该区域(即R=6)的R维位置编码。

三、OSCAR+预训练

         VLP的成功在于对广泛的VL任务使用统一的模型结构,且使用与这些下游VL任务的性能指标相关的目标对统一的模型进行大规模的预训练。在这项研究中,我们预训练了OSCAR[21]的一个改进版本,称为OSCAR+模型,以学习使用图像标签作为图像-文本对齐的锚点的联合图像-文本表示。

3.1 预训练语料库

        我们基于三种现有的视觉和VL数据集建立我们的预训练语料库:(1)有人类注释的标注w和机器生成的图像标签q的图像标注数据集,包括COCO,概念标注CC,SBU标注和flicker30k;(2)有问题w和人类注释的答案q的视觉QA数据集,包括GQA,VQA,和VG-QAs;(3)有机器生成的标注w和人类注释的标签q的图像标记数据集,包括OpenImages的一个子集。总之,该语料库包含565万张独特图像,885万文本-标签-图像三元组。通过结合大规模的图像标记数据集,如完整的OpenImages和YFCC,我们让未来的工作利用更大的语料库来进行模型预训练。

 不同的预训练对比损失对下游任务(R50-C4作为视觉模块,4层的Transformer作为VL模块)的影响,COCO-IR指标是图像-文本检索R@1在COCO1K测试集。

 3.2 预训练目标

        在OSCAR+预训练损失中有两项,LMTL是在文本模态(w和q)上定义的掩蔽令牌损失,LCL3是一种新的三路对比损失。与OSCAR[21]中使用的二值对比损失不同,所提出的3路对比损失可以有效地优化用于VQA[41]和文本图像匹配的训练目标。

 如下式所示,LCL3考虑两种训练样本x:图像标注和图像标签数据的{标注,图像标签,图像特征},和VQA数据的{问题,答案,图像特征}三元组。

         为计算对比损失,需要构造负例,我们分别为这两种训练样本构建两种负例。一种是被污染的“标注”(w'、q、v),另一种是被污染的“答案”(w、q'、v),为区分一个标注-标签-图像三元组是否包含一个被污染的标注是一个文本-图像匹配任务。为区分一个问题-答案-图像三元组是否包含一个被污染的答案是VQA的一个答案选择任务。由于[CLS]编码可以被看作三元组(w,q,v)的表示,我们在它之上应用一个全连接层作为一个三路分类器f(.)来预测三元组是否匹配(c=0),包含一个被污染的w(c=1),或包含一个被污染的q(c=2)。三路对比损失被定义为:

 其中,数据集(w,q,v;c)∈˜D包含50%的匹配的三元组,25%的w污染的三元组和25%的q污染的三元组。为了有效地实现,被污染的w'从所有的w(标题和问题)中均匀采样,q'从语料库中的所有q(标签和答案)中均匀采样。如表3所示,当只使用答案污染的三联体,即从QA语料库中的q'采样时,对比损失密切模拟了VQA任务的目标,而不是文本图像检索任务。因此,预先训练的模型可以有效地适应VQA,但不适用于文本图像检索。相比之下,所提出的三向对比损失可以很好地转移到这两个任务上。

 3.3 预训练模型

        我们预训练两种模型变体,表示为OSCAR+B和OSCAR+L,分别用BERT base(L=12、H=768、A=12)和large(L=24、H=1024、A=16)初始化,其中L为层数、H隐藏大小和A自注意头的数量。为确保图像区域特征具有与BERT相同的输入嵌入大小,我们利用矩阵w的线性投影对位置增广区域特征进行变换。可训练参数为θ={θBERT,W}。OSCAR+B被训练了至少100万步,学习率为1e−4,批处理大小为1024。OSCAR+L被训练了至少100万步,学习率为3e−5,批处理大小为1024。语言标记[w、q]和区域特征v的序列长度分别为35和50。

 四、适应VL任务

        我们将预训练好的模型适应于7个下游VL任务,包括5个理解任务和2个生成任务。本节主要阐述这些任务和我们的微调策略。

        VQA&GQA:本研究中,我们在广泛使用的VQAv2.0数据集和GQA数据集上进行实验,当使VLP模型适应VQA任务时,我们通过连接给定的问题、对象标签和对象区域特征来构造输入,然后将OSCAR+的[CLS]输出送入给特定任务的一个softmax层的线性分类器用于答案预测。

五、实验和分析

5.1 主要结果

        为了考虑模型参数的效率,我们将SoTA模型分为三类:(1)SoTAS表明了小型模型在基于Transformer的VLP模型之前取得的最佳性能;(2)SoTAB表明了与BERT base相似大小的VLP模型所产生的最佳性能;(3)SoTAL表示与BERT大小相似的VLP模型产生的最佳性能。

        表4概述了oscar+和VINVL(简称VINVL)在7个VL任务上的结果,并与之前的SoTAs进行了比较。VINVL在所有任务上都优于以前的SoTA模型,通常差距非常大。结果表明了新的OD模型所产生的区域特征的有效性。

         表5是VQA的结果,这是截止2020年12月12日,我们的单个OSCAR+B模型优于最佳集成模型(InterBERT large)。表6是GQA结果,其中OSCAR+w/VINVL是第一个优于神经状态机(NSM)(包含一些专门为任务设计的复杂推理组件)的VLP模型。

         总的来说,在所有这些任务中,OSCAR+B可以匹配或优于之前的SOTA large模型,且OSCAR+L大大提高了SoTA.

5.2 消融分析

        我们从标准验证集中创建了一个本地验证集,vqa-dev,以便在训练过程中选择最佳的模型进行评估。vqa-dev包含随机采样的2K幅图像及其相应的问题,总计为10.4K对图像-qa对。除了表4和表5之外,我们所有的VQA结果都报告在这个vqa-dev集上。

        在VQA中,我们重点研究不同视觉模型Vision(Img)产生的视觉特征v的影响,以更好地理解它们在VQA性能中的相对贡献。

        V和VL对SoTA有多重要?表12显示了不同视觉模型的VQA结果,即[2]的R101-C4模型和我们的X152-C4模型用4个数据集(VinVL)预训练,以及不同的VLP方法,即没有VLP,oscar[21]和我们的oscar+。以R101-C4特征为基准的OSCARB模型,以我们的X152-C4特征的OSCAR+B模型将绝对精度从72.38提高到74.90,其中OSCAR+预训练贡献的5%增益(即72.38→72.46),视觉预训练(改善视觉特征)的95%(即72.46→74.90)。这表明视觉表征在VLP和下游任务中具有重要意义。

        以R101-C4特征为基线的“无VLP”模型,表12显示,VinVL(71.34−68.52=2.82)和VLP(72.46−68.52=3.94)的增益是相加的(74.90−68.52≈2.82+3.94)。这是直观的,因为视觉预训练和VLP分别提高了视觉模型Vision(Img)和VL模型VL(w,q,v),这也表明,我们预先训练的视觉模型可以用于任何VL模型,直接用我们的模型替换他们的视觉模型,如R101-C4[2]。

        数据和模型大小对新的视觉模型有多重要?表12中VQA从R101-C4[2]到VinVL(我们的)的改进是增加模型大小(从R101-C4到X152-C4)和数据大小(从VG到我们合并的四个OD数据集)的复合效应。表13显示了无VLP的消融。虽然VG的大型对象和属性词汇表允许学习丰富的语义概念,但VG不包含大量的注释,以有效地训练深度模型。使用合并的四个OD数据集训练的视觉模型比仅vg训练的模型表现得好得多,并且随着模型大小的增加,改进越大。

         OD模型体系结构有多重要?模型体系结构的选择会影响VQA的性能。表13显示,R50-FPN仅在VG上进行训练时,其性能低于R50-C5;但当两者都在合并的数据集(4个数据集)上进行训练时,性能差距减小。

        OD预训练对对象检测任务有多重要?表14给出了COCO的对象检测结果和VG的对象属性检测结果(1594个对象类、524个属性类)。结果表明,OD预训练有利于目标检测任务。请注意,VG上的mAP远低于典型的OD数据集(如COCO),原因有两个原因:(1)VG包含大量注释有限且非常不平衡的对象类,(2)在VG评估数据中有许多缺失的注释。虽然mAP数较低,但使用X152-C4的检测结果相当好;更多可视化信息见附录A。我们也看到了FPN模型在属性检测方面的性能始终不如C4模型,FPN模型在VG上的对象检测方面也没有显示出任何优势。这导致与C4相比,FPN在下游VL任务上的性能较差,如第2.1节所述。

         视觉概念的多样性,即对象和属性的词汇表,有多重要?我们直接在不同的数据集上训练视觉模型,包括(1)具有1K类的标准ImageNet,(2)37个对象类的Visual Genome与COCO80类和OpenImagesV5 500 类共享,(3)有1594个对象类(VGw/oattr)的VG,(4)有1594个对象类和524个属性类(VG)的VG,以及(5)用于预训练的合并OD数据集(4个集)和用于微调的VG。对于所有的OD模型(表15中的最后四列),我们使用Imagenet预先训练的分类模型初始化OD训练,并使用每张图像最多50个区域特征作为VL融合模块的输入。对于ImageNet预先训练过的分类模型(表15中的第二列),我们对每张图像使用所有的网格特征(最大值为273)。结果表明:

        一般来说,具有更丰富对象的词汇表会导致更好的VQA结果:VG-obj<ImageNet<VGw/oattr。VG-obj词汇表包含80个COCO类中的79个(只缺少盆栽植物)和500个OpenImagesV5类中的313个,是典型OD任务的常见对象类的一个很好的近似值。然而,我们的研究结果表明,这个词汇表对于VL任务还不够丰富,因为它错过了许多重要的视觉概念(如天空、水、山等)。这对于VL任务至关重要,图1中检测到的区域的比较也说明了这一点。 

        属性信息对VL任务至关重要:训练有属性训练的模型(VG和4Sets→VG)的模型明显优于那些没有属性的模型。

        即使对于小型视觉模型R50-C4,视觉预训练也能改善VQA的视觉特征,即4Sets→VG是表现最好的。

        在表16中,我们使用不同类型的区域建议来提取图像特征。COCO地面真相对象区域(GT-Obj,80类)和object-stuff区域(GT-Obj&Stuff,171类)在本地化方面是完美的,但它们的词汇量是有限的。VG训练模型([2]和VinVL)提出的区域在本地化上并不完善,但使用了更大的词汇量。对于VQA任务,COCO GTboxes比VG训练模型生成的建议要差得多。结果表明,典型的OD任务与VL中的OD任务之间的区别:VL中的OD需要更丰富的视觉语义来与语言模态中丰富的语义对齐。这进一步呼应了我们的说法,即使用更丰富的词汇表训练的图像理解模块对VL任务表现得更好。

 六、结论

        本文提出了一种用于VL任务的预训练OD模型的新方法。与最广泛使用的bottom-up和top-down的模型相比,新模型更大,为VL任务设计更好,并在更大的文本-图像语料库上进行预训练,因此可以生成更丰富的视觉对象和概念的视觉特征,这些对VL任务至关重要。我们通过全面的实证研究验证了新模型,我们将视觉特征输入VL融合模型,该模型在大规模配对文本-图像语料库上进行预训练,然后在7个VL任务上进行微调。我们的结果表明,新的OD模型可以显著提高跨多个公共基准的所有7个VL任务上的SoTA结果。我们的消融研究表明,这种改进主要归因于我们在对象类别的多样性、视觉属性训练、训练数据规模、模型大小和模型架构方面的设计选择。

pdf_watermark

内容来源:csdn.net

作者昵称:weixin_42653320

原文链接:https://blog.csdn.net/weixin_42653320/article/details/121094777

作者主页:https://blog.csdn.net/weixin_42653320weixin_42653320

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

2021:VinVL: Revisiting Visual Representations in Vision-Language Models 的相关文章

  • FPN网络详解

    1 特征金字塔 特征金字塔 Feature Pyramid Networks FPN 的基本思想是通过构造一系列不同尺度的图像或特征图进行模型训练和测试 目的是提升检测算法对于不同尺寸检测目标的鲁棒性 但如果直接根据原始的定义进行FPN计算
  • 【计算机视觉】消融实验(Ablation Study)是什么?

    文章目录 一 前言 二 定义 三 来历 四 举例说明 一 前言 我第一次见到消融实验 Ablation Study 这个概念是在论文 Faster R CNN 中 消融实验类似于我们熟悉的 控制变量法 假设在某目标检测系统中 使用了A B
  • GPT-4来了,但大模型的诸多未解之谜仍然未解

    导语 在3月14日 OpenAI 的 GPT 4 正式发布 它拥有多模态能力 可以接受图像输入并理解图像内容 可接受的文字输入长度增加到 3 2 万个 token 在多种专业和学术基准测试中取得好成绩 然而 功能强大的 GPT 4 与早期的
  • 用MATLAB实现人脸识别

    1 人脸识别技术的细节 一般来说 人脸识别系统包括图像提取 人脸定位 图形预处理 以及人脸识别 身份确认或者身份查找 系统输入一般是一张或者一系列含有未确定身份的人脸图像 以及人脸数据库中的若干已知身份的人脸图像或者相应的编码 而其输出则是
  • 图像特征提取技术

    目 录 前 言 基于颜色的特征提取 1 颜色空间 2 直方图以及特征提取 基于纹理的特征提取 1 灰度共生矩阵 2 tamura纹理 基于深度神经网络的图像处理 前 言 图像特征提取属于图像分析的范畴 是数字图像处理的高级阶段 本文将从理论
  • 计算机图形学---常用颜色模型汇总(RGB,CMY,HSV)

    本文整理自西安交通大学软件学院祝继华老师的计算机图形学课件 请勿转载 文章目录 常用颜色模型 RGB颜色模型 CMY颜色模型 HSV颜色模型 常用颜色模型 颜色模型 某个三维颜色空间中的一个可见光子集 包含某个颜色域的所有颜色 用途 在某个
  • 【pytorch目标检测】创新之作:Fast R-CNN算法解读

    背景 2015年 提出了Fast RCNN算法 训练步骤实现端到端 CNN 基于VGG6 Fast R CNN是基于R CNN和SPPnets进行的改进 成果 训练速度比RCNN块9倍 测试速度快乐23倍 准确率68 4 SPPnets网络
  • Sequential Modeling Enables Scalable Learning for Large Vision Models

    目录 一 论文速读 1 1 摘要 1 2 论文概要总结 二 论文精度 2 1 论文试图解决什么问题 2 2 论文中提到的解决方案之关键是什么 2 3 论文提出的架构和损失函数是什么 2 4 用于定量评估的数据集是什么 代码有没有开源 2 5
  • 改了论文查重率依然很高怎么办【保姆教程】

    大家好 今天来聊聊改了论文查重率依然很高怎么办 希望能给大家提供一点参考 以下是针对论文重复率高的情况 提供一些修改建议和技巧 改了论文查重率依然很高怎么办 在学术领域 论文查重是保证学术诚信和论文质量的重要环节 伪原创 然而 有些同学在修
  • 张正友相机标定法原理与实现

    张正友相机标定法是张正友教授1998年提出的单平面棋盘格的相机标定方法 传统标定法的标定板是需要三维的 需要非常精确 这很难制作 而张正友教授提出的方法介于传统标定法和自标定法之间 但克服了传统标定法需要的高精度标定物的缺点 而仅需使用一个
  • Far3D:直接干到150m,视觉3D目标检测新思路(AAAI2024)

    点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 gt gt 点击进入 自动驾驶之心 3D目标检测 技术交流群 论文作者 自动驾驶Daily 编辑 自动驾驶之心 近来在 Arxiv 读到一篇纯视觉环视感知的新工作 它延
  • 大语言模型:开启自然语言处理新纪元

    导言 大语言模型 如GPT 3 Generative Pre trained Transformer 3 标志着自然语言处理领域取得的一项重大突破 本文将深入研究大语言模型的基本原理 应用领域以及对未来的影响 1 简介 大语言模型是基于深度
  • 将yolo格式转化为voc格式:txt转xml(亲测有效)

    1 文件目录如下所示 对以上目录的解释 1 dataset下面的image文件夹 里面装的是数据集的原图片 2 dataset下面的label文件夹 里面装的是图片对应得yolo格式标签 3 dataset下面的Annotations文件夹
  • 【思扬赠书 | 第1期】教你如何一站式解决OpenCV工程化开发痛点

    写在前面参与规则 参与方式 关注博主 点赞 收藏 评论 任意评论 每人最多评论三次 本次送书1 3本 取决于阅读量 阅读量越多 送的越多 思扬赠书 第1期活动开始了 机器视觉 缺陷检测 工业上常见缺陷检测方法 方法一 基于简单二值图像分析
  • 图像相关知识点及属性介绍

    图像常用属性指标 图像的常用属性指标有以下几个 分辨率 分辨率是指图像中可以显示的水平和垂直像素数 较高的分辨率意味着图像具有更多的细节和更高的清晰度 常用单位有像素 px 或者万像素 MP 色彩深度 色彩深度是指图像中每个像素可以表示的不
  • 讲解光流估计 liteflownet3

    目录 讲解光流估计 LiteFlowNet3 什么是 LiteFlowNet3 模型架构 训练与优化 应用与展望 结论 讲解光流估计 LiteFlowNet3 光流估计是计算机视觉领域的重要任务 其可以估计图像序列中每个像素的运动矢量 光流
  • 【思扬赠书 | 第1期】教你如何一站式解决OpenCV工程化开发痛点

    写在前面参与规则 参与方式 关注博主 点赞 收藏 评论 任意评论 每人最多评论三次 本次送书1 3本 取决于阅读量 阅读量越多 送的越多 思扬赠书 第1期活动开始了 机器视觉 缺陷检测 工业上常见缺陷检测方法 方法一 基于简单二值图像分析
  • 【图像配准】

    非配对配准 Non rigid registration 和配对配准 Rigid registration 是医学图像配准中常用的两种方法 它们有着不同的含义和应用 非配对配准 Non rigid registration 非配对配准是指将
  • 【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究(Matlab代码实现)

    欢迎来到本博客 博主优势 博客内容尽量做到思维缜密 逻辑清晰 为了方便读者 座右铭 行百里者 半于九十 本文目录如下 目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码 图像 文章
  • 回望计算机视觉会议ICCV的31年

    作者 原野寻踪 编辑 汽车人 原文链接 https zhuanlan zhihu com p 670393313 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 全栈算法 技术交流群 本文只做

随机推荐

  • 【EI会议征稿】第三届机械自动化与电子信息工程国际学术会议(MAEIE 2023)

    第三届机械自动化与电子信息工程国际学术会议 MAEIE 2023 第三届机械自动化与电子信息工程国际学术会议 MAEIE 2023 将于2023年12月15 17日在江苏南京举行 本会议通过与业内众多平台 社会各团体协力 聚集机械自动化 电
  • 嵌入式Linux应用开发笔记:串口

    文章目录 目的 基础说明 开发准备 设备树 应用程序 应用程序与演示 代码 演示 总结 设备树文件 目的 串口 UART 是嵌入式设备中比较常用的功能 这篇文章将记录下应用程序中串口操作相关内容 这篇文章中内容均在下面的开发板上进行测试 新
  • Dockerfile部署lnmp

    Dockerfile部署lnmp 实验步骤 需一台安装好docker的虚拟机 systemctl stop firewalld systemctl disable firewalld setenforce 0 指定网段 docker net
  • stream与Byte相互转换

    stream 转为byte public byte stream2byte Stream stream byte buffer new byte stream length stream Read buffer 0 buffer lengt
  • 嵌入式调试工具合集

    Embedded Develop Tools 嵌入式开发中用到的一些工具软件集 文章目录 Embedded Develop Tools 串口调试 串口收发 串口终端 虚拟串口 串口监控 网络调试 网络抓包 TCP UDP HTTP MQTT
  • Android SDK 安装与Manager下载tools详情

    Android SDK 安装与Manager下载tools详情 Android SDK 安装 前往android网站下载 下载图片红色处即可 下载后双击按步骤安装即可 Manager tools安装 进入安装的文件目录 找到SDK Mana
  • 区块链的5个特征

    id BSN 2021 公众号 BSN研习社 人们看重区块链 最重要的是看重区块链所具有的不可替代的功能和特点 这些特点包括去中心化 开放性 独立性 安全性 匿名性 去中心化 区块链技术不依赖额外的第三方管理机构或硬件设施 没有中心管制 除
  • Linux资源监控工具

    概述 glances 是一款用于 Linux BSD 的开源命令行系统监视工具 它使用 Python 语言开发 能够监视 CPU 负载 内存 磁盘 I O 网络流量 网速 文件系统 系统温度等信息 本文介绍 glances 的使用方法和技巧
  • 类注释文档编写方法

    对于Java语言 最体贴的一项设计就是它并没有打算让人们为了写程序而写程序 人们也需要考虑程序的文档化问题 对于程序的文档化 最大的问题莫过于对文档的维护 若文档与代码分离 那么每次改变代码后都要改变文档 这无疑会变成相当麻烦的一件事情 解
  • 大数据Java基础第十九天作业

    第一题 简单的URL获取资源下载 import java net URL import java net URLConnection import java io InputStream import java io FileOutputS
  • arm64 linux pgd_offset_k 代码阅读过程中的疑问记录

    start kernel gt setup arch gt early fixmap init gt pgd offset k pgd t pgd unsigned long addr FIXADDR START 0xffff7ffffab
  • 二维背包(包含优化)

    二维背包 二维背包 二维背包相较于01背包 多了一个限制 就是背包的重量有了限制 但是其本质和01背包并没有什么区别 只是多遍历一轮 f i j k 状态表示 解锁了前i个物品 背包可以承载体积为j 可以承重为w 状态转移方程 f i j
  • 2023-9-11 高斯消元解异或线性方程组

    题目链接 高斯消元解异或线性方程组 include
  • 小米 安卓等 安卓 机器 开启9008端口进入深刷模式 深刷模式 9008工程线深度线制作教程

    开启9008端口进入深刷模式 adb reboot edl fastboot oem edl 下面这个可能用于其他手机 fastboot reboot emergency 小米绕BL锁9008工程线深度线制作教程 此方法仅适用小米高通机型
  • uniapp 点击动画_uni-app 点击元素左右抖动效果

    点击 data return animation 动画样式 methods sidebarClick this animation shake setTimeout gt this animation 2000 display flex f
  • 获取一个物体挂载的脚本

    获取一个物体挂载的脚本 m modelControl GetComponent enabled false
  • 前端自定义列表排序

    项目中有几个页面都涉及了排序且都是前端排序 为了方便高效 将所有的排序方式整理成一个数组放在公共的js文件中 dictionary js 排序数组 let rankType key rank 这个是后端返回数据中的某个字段 value 按排
  • 【第十四届蓝桥杯三月真题刷题训练——第 10 天(3.13)& 裁纸刀 & 刷题统计 & 修剪灌木 & k倍区间 & k倍区间加强版】

    第一题 裁纸刀 解题 通过观察发现 外围四边都需要剪一次 而中间每行需要总行号 n 1 其余的一行的列需要剪 总列 m 1 总共n行 所以 得出公式 4 n 1 m 1 n public class Main public static v
  • 阿里云磁盘异常爆满的原因及解决方法

    阿里云磁盘提示使用率为100 提示网站打不开 原因则无一例外都是磁盘爆满 导致mysql停止工作 删除部分文件后 网站恢复访问 不过过不多久 网站又再次因为磁盘爆满而打不开 在服务器上找了一圈的原因 终于发现了几个特别大的文件 linux查
  • 2021:VinVL: Revisiting Visual Representations in Vision-Language Models

    摘要 本文详细研究了视觉语言 VL 任务的视觉表示的改进 并开发一种改进的对象检测模型 以提供图像的对象为中心的表示 与最广泛使用的bottom up和top down模型相比 新的模型更大 为VL任务设计的更好 在更大的训练语料库 结合多