视觉问答

2022VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

摘要我们提出了一个统一的视觉语言预训练模型 VLMo 该模型与一个模块化的transformer网络共同学习一个双编码器和一个融合编码器具体地我们引入了模态混合专家 MoME Transformer 其中每个块包含一个特定于模态的专

视觉问答 深度学习 人工智能
Multi-level Attention Networks for Visual Question Answering阅读笔记

Multi level Attention Networks 这个模型可以同时提取高级语义信息和空间信息模型框架如下所示该模型分为三个部分分别是Semantic Attention Context aware Visual Atten

VQA 深度学习 视觉问答 深度学习

2022VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts