CVPR 2023

2023-10-28

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群

转载自:CSIG文档图像分析与识别专委会 

bb5718f4226f96c4d9e5c6a094069d53.png

本文简要介绍CVPR 2023录用论文“Turning a CLIP Model into a Scene Text Detector”的主要工作。该论文提出一种新方法TCM,专注于将CLIP模型用于文本检测任务而不需要预训练过程。该方法的基本原理可以直接应用于改进现有的场景文本检测器。同时它促进了现有方法的少样本训练能力,通过使用10%的标记数据,该方法在4个基准测试中的F-measure方面显着提高了基线方法的性能。此外,通过将CLIP模型转化为现有的场景文本检测方法,作者进一步实现了有前途的领域自适应能力。

论文:https://arxiv.org/abs/2302.14338

代码:https://github.com/wenwenyu/TCM

  • 一、研究背景

由于场景文本识别具有广泛的实际应用场景,例如办公自动化、即时翻译、自动驾驶和在线教育。因此它是一项长期的研究课题,目的是在从自然图像中定位每个文本实例的边界框或多边形。随着全面监督深度学习技术的快速发展,场景文本检测取得了显著的进展。虽然监督式方法在文本检测领域取得了显著进展,但它们需要广泛而精细的注释,例如字符级、单词级和文本行级边界框,特别是针对任意形状的场景文本的多边形框。因此,研究少量标记数据下的文本检测方法,即少样本学习,非常重要。

最近,通过利用预训练的视觉和语言知识,大规模对比语言图像预训练(CLIP)模型[1]已经展示了它在各种下游任务中的重要性,例如图像分类、目标检测和语义分割。

与一般的物体检测相比,自然图像中的场景文本通常呈现出视觉和丰富的字符信息,这与CLIP模型有着自然的联系。因此,如何充分利用视觉、语义和文本知识的跨模态信息,以提高文本检测模型的性能,受到了越来越多的关注。

本文作者的重心是将CLIP模型转化为无需预训练过程的文本检测器。然而,将CLIP模型整合到场景文本检测器中并不是一件简单的事情。关键在于寻找一种适当的方法,利用每个图像上的视觉和语义先验信息。因此,作者开发了一种名为TCM的新方法,用于场景文本检测,如图1所示,TCM是一个可插拔模块,可以轻松地插入到改进场景文本检测框架中。具体TCM的实现如图2所示,作者通过视觉提示学习设计了一种跨模态交互机制,从CLIP的图像编码器中恢复局部特征,可以捕获细粒度信息对粗文本区域做出反应,以便随后在文本实例和语言之间进行匹配。为了更好地指导预训练的知识,作者引入了一个语言提示生成器来为每张图像生成条件线索,并设计了一个视觉提示生成器,它学习图像提示,以适应冻结的剪辑文本编码器进行文本检测任务。TCM 可以直接适用于更广泛的文本检测方法,只需稍作修改。此外,作者设计了一种实例语言匹配方法来对齐图像嵌入和文本嵌入,这鼓励图像编码器从跨模态视觉语言先验中显式细化文本区域。我们将在下面章节对每个方法细节进行详细的介绍。

80dd8db8499f8b3781199e4b4cd1a048.png

图1. 方法整体框架

315619092da2f75fd5534edea41932ad.png

图2. TCM的详细框图。图像编码器和文本编码器直接来自CLIP模型。

  • 二、图像编码器

作者使用 CLIP 的预训练 ResNet50作为图像编码器,它为每个输入像素产生一个嵌入向量,可表示为公式(1)。

26936f83525fcd9f63e7eee54a43f85e.png

  • 三、文本编码器

文本编码器接受输入一个包含K个类别提示的文本,并将其嵌入到连续的向量空间,产生文本嵌入作为文本编码器的输出,具体来说,作者在整个过程中利用了已经冻结预训练的CLIP文本编码器作为语言知识先验,以用于文本检测。由于文本检测任务中只有一个文本类别,因此K被设置为1。与原始模型使用像“A Photo Of A [CLS]”的模板不同,作者预定义离散的语言提示为“Text”。文本编码器输入1634a0ebcc7b9a1014e4aba3a62dda0a.png的一部分定义如下:

ec7048fc5010a74d91bde8caf6ec007b.png

WordEmbedding(·)表示预定义提示“Text”类别的词嵌入。D表示词嵌入的维度,设置为512。

受 CoOp [2, 3] 的启发,作者还添加了可学习的提示d6b71363049d8077ff73fcfafa9717a5.png,以学习文本嵌入的强韧可转移性,从而促进 CLIP 模型的零样本转移,其中n是可学习提示的数量,默认设置为4。因此,文本编码器的输入 tin 如下:

20d954e38cafddd973a7c910e4352633.png

文本编码器以 tin 作为输入,生成文本嵌入tout。

b497121f0f41abb4249bef104c30fdd7.png

  • 四、语言提示生成器

尽管预定义的提示和可学习提示对于引导 CLIP 模型非常有效,但在测试文本实例与训练图像不匹配的开放式场景中,它可能会受到有限的少样本或泛化能力的影响。因此,作者提出了一种语言提示生成器来生成一个特征向量,称为条件提示 (cc)。对于每个图像,cc 然后与文本编码器的输入 tin 结合,表示如下:

913e3798469aff6ca732cc0172e4d7eb.png

其中eb22ab0ffa0ca763dd1ab7ca8c06a5d0.png是以输入图像为条件的文本编码器的新提示输入。同时将公式(4)的tin替换为dd184903fb130b9004c146361539043d.png

在实际的实现中,语言提示生成器是由一个两层前馈网络构建而成,用于从全局图像嵌入 I 中生成条件提示 (cc)。它由两个层归一化后跟线性变换组成,在它们之间有一个 ReLU 激活函数,表示如下:

1ea7f20ef4454f215040748a8c886398.png

  • 五、视觉提示生成器

作者设计了一个视觉提示生成器,以自适应地传播从文本特征到视觉特征的细粒度语义信息。形式上,作者使用Transformer中的交叉注意机制来建模图像嵌入(Q)和文本嵌入(K,V)之间的交互。然后学习视觉提示f7cadcdaa44c22d40141d33902a2ea3d.png以将信息从图像级传递到文本实例级,其定义为:

f689fd0f7cc3fdbf52e7cf89fbd9dea2.png

根据条件视觉提示,原始图像嵌入I配备了cfeede8519e2ffeee0a9ae3c51232cc7.png,用于生成提示文本感知的局部嵌入848c694d2fe2da3d06303a1faa2d6460.png,用于实例语言匹配(公式9)和下游检测头:

4ef3073683c9e400e8abe37f3757855f.png

  • 六、实例语言匹配

给定文本编码器和图像编码器的输出,作者对具有文本感知的局部图像嵌入1e0add0af1868f5dd70bcb953b5760c2.png和文本嵌入tout执行文本实例语言匹配对齐,使用点积后跟Sigmoid激活来获取二进制评分映射。生成的条件细粒度嵌入b0960c1554f055c50a09a9f041b1a44b.png和视觉嵌入I的混合可以使存在于视觉特征中的文本实例与预训练语言知识更好地协作匹配。匹配机制的表述如下:

f87e09054833a254db5b5d6682465f07.png

其中tout是文本嵌入,因为文本检测场景中只有一个文本类别,而P是二进制文本分割图。分割图使用真实标注作为辅助损失进行监督,并与提示的嵌入5e3b6b5920808ddb67ba3766064ac6fe.png串联起来,用于下游文本检测头,以显式地融合语言先验知识进行检测。在训练过程中,作者最小化分割图P与地面实况之间的二元交叉熵损失,定义如下:

2cffa6b2e4d62b5d9b61da460e79e030.png

  • 七、优化

总损失函数Ltotal是检测损失Ldet和辅助损失Laux之和,其公式如下:

1db465fda19b935acfc182b309a11f8c.png

其中,λ是一个权衡超参数,在本文中设置为1。Ldet取决于下游文本检测方法,包括分割和回归类别。在推理阶段,我们使用检测头的输出作为最终结果。

  • 八、实验

作者进行了四组实验来验证TCM。第一组实验研究了如何将TCM纳入现有的文本检测器中,以实现一致的性能提升。接下来,作者通过采用TCM方法展示了其少样本训练能力和泛化能力。在第三组实验中,作者将TCM与以前的预训练方法进行比较。最后,作者提供了全面的实验来评估所提出的设计的灵敏度。

实验是在许多已知的场景文本检测基准上进行的,ICDAR2013 (IC13), ICDAR2015 (IC15)、MSRA-TD500(TD)、CTW1500(CTW)、TotalText(TT)、ArT、MLT17和MLT19。

实现细节。对于文本检测任务,作者尝试了包括DBNet (DB) 、PAN 和FCENet (FCE) 在内的流行文本检测方法来评估TCM。为了与这些方法保持一致的设置,使用SynthText和真实数据集来训练检测器。作者使用DBNet、PAN和FCENet的相应检测头来预测最终结果。对于模型的少样本学习测试,作者直接在基准测试中使用不同比例的训练数据进行训练,不进行预训练,并在相应的测试数据上进行测试。为了测试泛化能力,作者使用在相应源数据集上训练的模型,并在具有不同分布的目标数据集上进行评估。作者考虑了两种域适应类型,包括Synthtext-to-real和Real-to-real,以验证TCM的域自适应能力。针对预定义提示、可学习提示、语言提示生成器、视觉提示生成器和不同设置,作者进行了消融研究。DBNet被用作TCM的基准。

与现有方法的合作。作者在表1中报告了TCM与三种文本检测方法在IC15、TD和CTW上的文本检测结果。作者的方法在IC15的F-measure方面比原始的FCENet、PAN和DBNet分别高0.9%、1.7%和1.9%。TD和CTW也有类似的一致改进。请注意,作者的方法在IC15、TD和CTW数据集上使用PAN、FCENet和DBNet进行评估的推理速度分别为18、8.4和10 FPS,保持了检测器的高效性。同时作者在图3中展示了TCM的效果。它从全局图像嵌入I中恢复包含文本信息的细粒度特征aa7f15f297c98fdd1d4bd46e9c3923c9.png,证明TCM可以识别文本区域并为下游的文本检测提供这些先验线索。

表1. 在IC15、TD和CTW上与现有方法合作的文本检测结果

6f12e7a2a2d87c3bc027d78c27593439.png

266781380dbe42e08f18d1ec522b4829.png

图3. TCM可视化结果。对于每对图像,左侧是图像嵌入I,右侧是生成的可视化提示46f063b80b5f33e09c87f54f12299d94.png

少样本训练能力。为了进一步验证TCM方法的少样本训练能力,作者直接在真实数据集上使用不同的训练数据比例进行训练,并在相应的四个基准测试集上进行评估,而不进行预训练。如图4所示,作者的方法在有限的数据上表现出鲁棒性,并且优于包括DB、PAN和EAST在内的三种基准方法。结果表明,TCM可以通过利用零样本训练的CLIP模型的预训练视觉和语言知识来捕捉文本的固有特征。

abca738be2d920ed809f6968dbb4dbbf.png

图4. 使用不同的训练数据比例进行少样本训练能力测试。

泛化能力。作者进行了两种类型的实验,包括SynthText到真实图像的适应性和真实图像到真实图像的适应性,如表2和表3所示。从表格中,我们可以看到通过将TCM插入到DBNet中,作者在包括SynthText到真实图像和真实图像到真实图像在内的四个不同设置中平均提高了8.2%的F-measure,这进一步证明了作者的方法在域自适应方面的有效性。

表2. SynthText到真实图像的适应性。

fa1b48cdcdf5418cd0b11217109c8a03.png

表3.  真实图像到真实图像的自适应性。

232a7ccf3240b698e46c643afd52ad5a.png

与预训练方法的比较。基于特定设计的先前任务的预训练方法在文本检测领域取得了有效的进展。相比之下,TCM可以直接将CLIP模型转化为场景文本检测器,无需预训练过程。比较结果显示在表4中,我们可以看到,在没有用于预训练的先前任务的情况下,DB+TCM始终优于先前的方法,包括DB+STKM 、DB+VLPT和DB+oCLIP 。特别是在IC15上,作者的方法大幅优于先前的最先进的预训练方法,F-measure方面为89.4%,而先前的方法为86.5%。

表4. 与DBNet上现有的场景文本预训练技术的比较。

feb1bc284ae071f6123f02e9662099ba.png

预训练CLIP骨干网络消融实验研究。首先,作者进行了实验,仅用CLIP预训练的图像编码器ResNet50替换DBNet的原始骨干网络,以量化骨干网络的性能差异。如表5所示,CLIP的原始预训练模型不足以利用CLIP的视觉语言知识。因此,需要使用适当的方法来挖掘CLIP模型的知识。

表5. 在IC15、TD、TT和CTW数据集上对ResNet50骨干网络的消融研究。

f8b0a3729c08881114da89bc8b9e47f4.png

关于预定义提示的消融实验研究。当使用预定义提示,如表格6中第二行所示时,在所有四个数据集(IC15、TD、TT和CTW)上的表现都略有改善,分别比基线方法高出0.05%、0.2%、0.04%和0.1%。

关于可学习提示的消融实验研究。此外,表格6第三行提供了在四个数据集上结合可学习提示和预定义提示的结果。我们注意到,通过添加可学习提示可以实现持续改进。在表格6的第四行到第六行中,作者展示了使用不同数量可学习提示的影响。我们观察到,随着可学习提示数量的增加,所有数据集上的性能逐渐提高。与数量为4的值相比,数量为32的值在CTW、TD和TT上获得了明显的改进。作者推测这是因为更多的可学习提示可以更好地引导预训练的文本编码器知识,这对文本检测是有用的。在以下实验中,出于简单起见,可学习提示的默认数量设置为4。

语言提示生成器的消融实验研究。此外,作者评估了表6第7行所示的提出的语言提示生成器的性能。借助语言提示生成器的帮助,作者发现TCM在所有四个数据集上都取得了进一步的改进,特别是在ICDAR2015上,这表明语言提示生成器为每个图像生成的条件提示可以确保更好的泛化性能,适用于不同类型的数据集。

表6. 作者在IC15、TD、TT和CTW上进行的消融实验研究提出的组件。

eb9260807417e57e9533928e386cf73f.png

视觉提示生成器的消融实验研究。最后,将提出的视觉提示生成器与上述其他组件结合起来,F-measure的改进优于基线方法,在所有四个数据集上都有更大的提升,其中在IC15和TD上分别为1.7%和2.0%。这种明显的互补现象的原因是,视觉提示生成器可以将细粒度的视觉语义信息从文本特征传播到视觉特征。此外,由视觉提示生成器生成的提示局部图像嵌入可以指导模型获得更准确的文本实例级视觉表示,从而提高实例-语言匹配的能力,并生成有用于下游检测头的精确分割得分图。

VG和LG对泛化性能的消融实验研究。如表7所述,从TCM中去除VG和LG元素会严重损害泛化性能,这进一步表明了VG和LG的有效性。

表7. LG和VG对泛化性能影响的消融研究。

f166d34c80347d9f3175f2b1bf5ad8d8.png

图像编码器和文本编码器的消融实验研究。作者调整相应的学习率因子,研究了冻结文本编码器和图像编码器的质量如何影响性能。在TD500数据集上进行的TCM-DBNet实验结果如表8所示。结果表明,对于整个模型的训练,使用较低的学习率来调整两个编码器,并固定文本编码器是最佳设置。需要注意的是,当直接使用1.0×学习率来调整两个编码器时,我们观察到性能下降,这表明冻结文本编码器可以稳定训练过程。体系结构的核心,包括语言提示生成器和视觉提示生成器,旨在更好地引导预训练CLIP的知识。网络体系结构的适当设计和预训练CLIP的使用是相辅相成的。

表8. 图像编码器和文本编码器的消融研究

423a286299ec300599c6b5748bd2efb6.png

不同数据量的消融实验研究。为了进一步探究TCM是否可以学习到难以从增加数据中获得的额外知识,作者在包括IC13、IC15、TD、CTW、TT和MLT17等公共联合数据集上对模型进行了训练,共计13,784张图像,并在从ArT精心收集的NightTime-ArT数据集(326张图像)上进行测试。ArT的夜间示例如图5所示。结果如表9所示。结果表明,即使加入了大量的训练数据,现有方法仍然存在明显的局限性,无法应对明显与训练集分布不同的夜间数据。然而,TCM在这种情况下仍然可以表现出强大的稳健性,表明它具有不可替代的潜在泛化能力。

表9. 大量训练数据的消融实验。

258bb54b1c3301cb213d0463694f66bb.png

b8b30f678726ee3ad0f6af8711380772.png图5. 作者构建NightTime-ArT数据集的示例。

参数比较的消融实验研究。为了公平比较,作者通过将DBNet的骨干网络替换为更大的ResNet来增加其参数,然后在TD500数据集上进行实验。可训练参数和FLOPs是在输入尺寸为1280×800时计算的。结果如表10所示。结果表明,相比于模型尺寸和计算开销更小的DBNet,TCMDBNet具有更好的性能,证明了它在场景文本检测中的有效性。

表10. DBNet参数比较的消融实验研究。

770458c9777f0452a63f9afcd51ac579.png

辅助损失的消融实验研究。作者进一步比较了在TD500数据集上采用和不采用辅助损失的结果,如表11所示。我们可以看到采用辅助损失可以获得更高的性能。结果表明,辅助损失通过对实例-语言匹配分数图施加约束有助于训练模型。此外,性能的提高表明它可能有助于让预训练CLIP的图像编码器有效地感知局部文本区域。

表11. 辅助损失的消融研究。

5c98260d150371e1a9375c57b7f2a8a6.png

b5696287dd151596f494e366ef9f04b7.png

图6. 失败案例。红圈表示假阳性区域。

  • 九、失败案例讨论

在图8中有一些有启发性的失败案例。实例-语言匹配分数图会生成一些非常类似于文本特征的假阳性区域,如图8中红圆圈所示,这些区域会被视为噪声。因此,下游的文本检测头需要进一步优化这个初始分数图,而不是直接使用实例-语言匹配的分数图作为最终结果。作者将把这个问题留给未来的工作来减轻实例-语言匹配的假阳性分数图。

  • 十、总结

本文提出了TCM,可以将CLIP模型中的先验知识直接挖掘到一个场景文本检测器中,而无需预训练过程。这种新的文本检测范式揭示了使用视觉语言先验来从零-shot off-the-rack模型中寻找信息的重要性,从而引导文本检测器适应小规模数据、不同的数据分布和复杂的场景,而不依赖于精心设计的预训练任务。实验全面地证明了TCM的有效性。值得一提的是,作者还构建了一个NightTime-ArT数据集,进一步证明了TCM可以从CLIP模型中引导有用的先验知识。由于CLIP模型是一个天生友好的文本框架,将TCM扩展到场景文本识别也是未来工作的一个有前途的方向。

  • 参考文献

[1] Alec Radford, et al. "Learning transferable visual models from natural language supervision". In ICML2021.

[2] Kaiyang Zhou , et al. "Conditional prompt learning for vision-language models”. In CVPR 2022.

[3] Kaiyang Zhou, et al. "Learning to prompt for vision-language models". In IJCV 2022.


原文作者: Wenwen Yu, Yuliang Liu, Wei Hua, Deqiang Jiang, Bo Ren, Xiang Bai

撰稿:郑晓怡 编排:高 学

审校:连宙辉 发布:金连文 

点击进入—>【计算机视觉】微信技术交流群

最新CVPP 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CVPR 2023 的相关文章

  • 问CHAT很繁琐的问题会不会有答案呢?

    问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件 对极端低温事件研究较少 CHAT 回复 为这主要可能是由于以下几个原因 1 气候变化与全球变暖 当前 全球变暖和气候变化的问题备受关注 这导致科研者更加关注极端高温事件
  • Soul App:年轻人的社交状态,还有多少种可能?

    查尔斯 狄更斯在 双城记 的开篇写下 这是最好的时代 这是最坏的时代 这是智慧的时代 这是愚蠢的时代 这是信仰的时期 这是怀疑的时期 人们面前有着各样事物 人们面前一无所有 既然万事万物都和狄更斯所说般 好坏参半 那又何必执着于过去 苦恼于
  • 让CHAT介绍下V2ray

    CHAT回复 V2Ray是一个网络工具 主要用于科学上网和保护用户的网络安全 它的名字源自Vmess Ray 光线 通过使用新的网络协议 为用户提供稳定且灵活的代理服务 下面是一些V2Ray的主要特性 1 多协议支持 V2Ray 提供了大量
  • 扬帆证券:三只松鼠去年扣非净利预增超1.4倍

    在 高端性价比 战略驱动下 三只松鼠 300783 重拾增势 1月15日晚间 三只松鼠发布成绩预告 预计2023年度净赢利为2亿元至2 2亿元 同比增加54 97 至70 47 扣非后净赢利为1亿元至1 1亿元 同比增速达146 9 至17
  • 打造完美人像,PixCake像素蛋糕助您一键修图

    您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰 是否曾经想要打造出完美的自拍照 却不知道该如何下手 现在 我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
  • 活动日程&直播预约|智谱AI技术开放日 Zhipu DevDay

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 直播预约通道 关于AI TIME AI TIME源起于2019年 旨在发扬科学思辨精神 邀请各界人士对人工智能理论 算法和场景应用的本质问题进行探索 加强思想碰撞 链接全球AI学
  • 多模态、长文本、智能体,智谱AI推出GLM-4模型全家桶,发布即上线!

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入 2024年01月16日 智谱AI首届技术开放日 Zhipu DevDay 在北京中关村国家自主创新示范区展示中心成功举办 现场 智谱AI团队全面展示了其投身于大模型事业三年多来所
  • 基于opencv的大米计数统计(详细处理流程+代码)

    在我每周的标准作业清单中 有一项是编写计算机视觉算法来计算该图像中米粒的数量 因此 当我的一个好朋友M给我发了一张纸上的扁豆照片 显然是受到上述转发的启发 请我帮他数一下谷物的数量时 它勾起了我怀旧的回忆 因此 我在我的旧硬盘上寻找很久以前
  • 毕业设计:基于深度学习的微博谣言检测系统 人工智能

    目录 前言 设计思路 一 课题背景与意义 二 算法理论原理 三 检测的实现 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实习为毕业后面临的就业升学做准备 一边要为毕业设计耗费大量精力 近几年各个学校要求的毕设项目越来越难 有
  • 【毕业设计选题】复杂背景下的无人机(UVA)夜间目标检测系统 python 人工智能 深度学习

    前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实习为毕业后面临的就业升学做准备 一边要为毕业设计耗费大量精力 近几年各个学校要求的毕设项目越来越难 有不少课题是研究生级别难度的 对本科同学来说是充满挑战 为帮助大家顺利通过和节省时间
  • 无人机视角、多模态、模型剪枝、国产AI芯片部署

    无人机视角 多模态 模型剪枝 国产AI芯片部署是当前无人机技术领域的重要研究方向 其原理和应用价值在以下几个方面进行详细讲述 一 无人机视角 无人机视角是指在无人机上搭载摄像头等设备 通过航拍图像获取环境信息 并进行图像处理和分析 这种技术
  • 台积电再被坑,2纳米光刻机优先给Intel和三星,美国太霸道了

    外媒指出今年ASML的10台2纳米光刻机分配已经基本确定了 Intel拿到6台 三星获得3台 台积电只能得到一台 考虑到美国对ASML的强大影响力 外媒的这些消息应该有较高的可信性 Intel在先进工艺制程方面 自从2014年量产14纳米之
  • 作物叶片病害识别系统

    介绍 由于植物疾病的检测在农业领域中起着重要作用 因为植物疾病是相当自然的现象 如果在这个领域不采取适当的护理措施 就会对植物产生严重影响 进而影响相关产品的质量 数量或产量 植物疾病会引起疾病的周期性爆发 导致大规模死亡 这些问题需要在初
  • 强烈推荐收藏!LlamaIndex 官方发布高清大图,纵览高级 RAG技术

    近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术 帮助应对复杂的生产场
  • 机器学习算法实战案例:BiLSTM实现多变量多步光伏预测

    文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
  • 做大模型也有1年多了,聊聊这段时间的感悟!

    自ChatGPT问世以来 做大模型也有1年多了 今天给大家分享这一年后的感悟 过去一年应该是AI圈最万千瞩目的一年了 大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注 以至于有一年的时间好像经
  • 机器学习算法实战案例:LSTM实现多变量多步负荷预测

    文章目录 1 数据处理 1 1 数据集简介 1 2 数据集处理 2 模型训练与预测 2
  • 史上最全自动驾驶岗位介绍

    作者 自动驾驶转型者 编辑 汽车人 原文链接 https zhuanlan zhihu com p 353480028 点击下方 卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 求职交流 技术交流群 本
  • 深度学习:人脸识别系统 Tensorflow 人脸检测 Python语言 facenet人脸识别算法 毕业设计(源码)✅

    博主介绍 全网粉丝10W 前互联网大厂软件研发 集结硕博英豪成立工作室 专注于计算机相关专业 毕业设计 项目实战6年之久 选择我们就是选择放心 选择安心毕业 感兴趣的可以先收藏起来 点赞 关注不迷路 毕业设计 2023 2024年计算机毕业
  • 自动驾驶离不开的仿真!Carla-Autoware联合仿真全栈教程

    随着自动驾驶技术的不断发展 研发技术人员开始面对一系列复杂挑战 特别是在确保系统安全性 处理复杂交通场景以及优化算法性能等方面 这些挑战中 尤其突出的是所谓的 长尾问题 即那些在实际道路测试中难以遇到的罕见或异常驾驶情况 这些问题暴露了实车

随机推荐

  • class-aware detector 和 class-agnostic detector

    For a class aware detector if you feed it an image it will return a set of bounding boxes each box associated with the c
  • C++ 链表遍历

    C 链表遍历 首先定义链表的结构 struct ListNode int val 存储数据 ListNode next next指针 ListNode val 0 next NULL 类似构造函数 ListNode int x val x
  • 内核调试方法 三

    目录 大海里的鱼有很多 而我们需要的是鱼钩一只 一些前言 作者前言 知识从哪里来 为什么撰写本文档 为什么需要汇编级调试 第一部分 基础知识 总纲 内核世界的陷阱 源码阅读的陷阱 代码调试的陷阱 原理理解的陷阱 建立调试环境 发行版的选择和
  • 国内可用的ChatGPT以及ChatGPT的工作流程(一文读懂ChatGPT)

    ChatGPT 介绍 国内可用的CHatGPT ChatGPT的工作流程 介绍 ChatGPT是由OpenAI公司开发的一种用于自然语言处理的语言模型 它是OpenAI旗下的GPT系列 Generative Pre trained Tran
  • 微信小程序用户登录功能无法使用

    背景 一个半年前的小程序项目了 最近一个用我项目的朋友说用户登录功能不能用了 小程序端 后端都没有报错 只有我开发时留下的 信息提示 我第一个反应就是微信小程序在今年三月份更新的接口 wx getUserProfile 但我都把方法改好了呀
  • git删除远程文件夹或文件

    1 操作一 预览将要删除的文件 如果不清楚该目录下是否存在不应该删除的文件 加上 n 这个参数 执行命令时 是不会删除任何文件 而是展示此命令要删除的文件列表预览 1 git rm r n cached 文件 文件夹名称 2 确定无误后删除
  • VGGNet简介及VGG13实现cifar100分类

    目录 VGGNet简介 VGGNet简介 VGG的创新之处 VGG的缺点 VGG13实现cifar100分类 cifar100 tensorflow实现VGG13 VGGNet简介 VGGNet简介 VGGNet由牛津大学计算机视觉组合和G
  • 2023电工杯数学建模B题思路分析

    文章目录 0 赛题思路 1 竞赛信息 2 竞赛时间 3 组织机构 4 建模常见问题类型 4 1 分类问题 4 2 优化问题 4 3 预测问题 4 4 评价问题 0 赛题思路 赛题出来以后第一时间在CSDN分享 1 竞赛信息 中国电机工程学会
  • NOIP中的数学--第8课 容斥原理(一)

    小学数学知识 容斥原理 容斥原理的题目都可以借助韦恩图这一工具来解决 并且非常快速与准确 一 关于两个集合的容斥原理 集合 A 与B 的并集的元素个数 等于集合 A 的元素个数与集合B 的元素个数的和 减去集合A 与 B 的交的元素个数 即
  • nn.AvgPool2d——二维平均池化操作

    PyTorch学习笔记 nn AvgPool2d 二维平均池化操作 torch nn AvgPool2d kernel size stride None padding 0 ceil mode False count include pad
  • 常见合并两个数组的方法

    数组合并方法 concat concat 方法合并数组不改变原数组 let arr1 1 3 4 5 let arr2 1 4 6 7 let result arr1 concat arr2 console log result 1 3 4
  • set实现返回小于给定值的数的个数

    使用pbds平衡树实现 头文件代码如下 for policy based data structures include
  • zookeeper报错Java Home Is Not Set

    安装zookeeper在网站上下载 https zookeeper apache org releases html 解压放在目录D bigdata 本文所用的目录 下 关于zookeeper以及kafka的目录 路径中最好不要出现空格 比
  • 机器学习之朴素贝叶斯方法(Naive Bayes)原理和实现

    目录 一 贝叶斯理论 二 实战朴素贝叶斯 实战朴素贝叶斯1 实战朴素贝叶斯3 三 scikit learn中朴素贝叶斯的分类算法的适用 四 贝叶斯算法的优缺点 一 贝叶斯理论 贝叶斯模型 现在我们来看一下怎么操作 假设我有m个样本数据 这大
  • Nginx(6)安装模块

    1 下载并解压第三方模块 要与nginx版本一致 下载原nginx源码包并解压 2 产看原nginx 编译参数 nginx V 3 进入到解压的nginx源码包目录里重新编译 configure help可以查看所有所需模块对应的编译选项
  • java中正则表达式的基本使用

    正则表达式的常用语法 正则在线检验 http tool chinaz com regex 更多地语法可以参考jdk api中的Pattern类 http tool oschina net apidocs apidoc api jdk zh
  • 传导骚扰的一些其他总结

    传导骚扰测试分类 实际上涉及到一款产品时 这个测试需要测哪些物理量 然后需要用到哪些设备 做骚扰测试 不管你是RE 辐射骚扰 还是CE 传导骚扰 核心的设备还是EMI测试接收机 或者是频谱仪 这两种机器测的是我受平端口的内心和外兜底里的电压
  • [Windows] bat查看端口占用命令, 并且关闭对应进程

    找到进程ID netstat ano find 8080 关闭进程 taskkill PID 13340 F
  • Centos7安装Rabbitmq

    一 下载安装包 RabbitMq需要erlang配合 所以需要安装Rabbitmq server和erlang wget http www rabbitmq com releases rabbitmq server v3 5 0 rabbi
  • CVPR 2023

    点击下方卡片 关注 CVer 公众号 AI CV重磅干货 第一时间送达 点击进入 gt 计算机视觉 微信技术交流群 转载自 CSIG文档图像分析与识别专委会 本文简要介绍CVPR 2023录用论文 Turning a CLIP Model