Trained

论文笔记：Beyond a Pre-Trained Object Detector:Cross-Modal Textual and Visual Context for Image Caption

前言这篇论文是CVPR2022的一篇文章 xff0c 代码也已经开源这博客主要分享自己的一些理解 xff0c 详情可以去阅读原文论文思想这篇论文首先提出了一个问题是当前的大多数图像描述模型主要依赖预训练的图像特征和一个固定的目标检测

Beyond Pre Trained object Detector