《Vision-Language Pre-Training with Triple Contrastive Learning》/《具有三重对比学习的视觉语言预训练》

2023-11-15

一、摘要

视觉语言表示学习很大程度上受益于通过对比损失(例如,InfoNCE损失)的图像-文本对齐。这种对齐策略能够最大化图像与其匹配文本之间的互信息(MI)。然而,简单地执行跨模态对齐(CMA)不能确保来自相同模态的相似输入保持接近,这可能会导致表示形式的退化。当训练前的数据有噪声时,这个问题会变得更糟。在本文中,我们提出了三重对比学习(TCL)的视觉语言预训练,利用跨模态和模态内的自监督。除了跨模态对齐(CMA),三重对比学习(TCL)还引入了一个模态内对比目标,在表征学习中提供互补的好处。为了利用来自图像和文本输入的局部信息和结构信息,TCL进一步最大化了图像/文本的局部区域与其全局摘要之间的平均MI。据我们所知,我们的工作是第一个考虑局部结构信息的多模态表示学习。实验评价表明,我们的方法具有竞争力,并在各种常见的下游视觉语言任务如图像-文本检索和视觉问题回答上取得了新的水平。

二、

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

《Vision-Language Pre-Training with Triple Contrastive Learning》/《具有三重对比学习的视觉语言预训练》 的相关文章

随机推荐

  • element UI el-select 绑定值为对象时设置默认值

    适用场景描述 在项目中实现编辑功能时 如页面存在下拉框且下拉框的数据在点击相应的select时进行调用 在编辑时可能需要修改部分数据 而且存在部分下拉数据并不是必选项 如果直接获取所有的下拉数据 可能会造成浪费 需要在下拉框内显示已有的值作
  • 文件夹正在使用,无法删除 无法重命名等操作怎么办?

    大家好 我是Q站小编鹏仔 平时大家使用电脑删除临时文件夹或修改文件夹名称时 会提示 文件夹正在使用 操作无法完成 因为其中的文件夹或文件已在另一程序中打开 请关闭该文件夹或文件 然后重试 如下图所示 很多人就遇到这中问题 会发现我目前并未打
  • 插入排序的几种优化及测试结果

    插入排序很简单的了 于是我将算法的优化的第一站选在了这里 编程珠玑 在第十一章就首先讨论了这个问题 我写的基本版本 void insertSort1 int a int len int i int j int tmp for i 1 i l
  • Intellij IDEA 插件开发秘籍

    来这里找志同道合的小伙伴 这里总结一下 Intellij IDEA 插件开发的知识 供大家参考 本篇文章包含以下内容 开发环境搭建 Component 介绍 Extension Point And Extension 介绍 Service
  • 遥感+python 1.4 RPC校正

    遥感 python 1 4 RPC校正 目录 遥感 python 1 4 RPC校正 一 正射校正 二 RPC校正原理 三 代码实现 本章节 笔者主要讲述RPC校正的概念 原理 即代码实现 一 正射校正 正射校正一般是通过在像片上选取一些地
  • 【数据结构】有向无环图

    有向无环图 若一个有向图中不存在环 则称为有向无环图 简称DAG图 举例 比如有一棵树长这样 我们会发现它有重复的地方 将这两部分合并 还是有重复的地方 再次合并 总结规律 有向无环图中 未知变量不能重复 比如上例 只会有一个a b c d
  • Javascript基础第六天知识点以及案例:作用域、JS预解析、对象

    作用域目标 能够说出 JavaScript 的两种作用域 能够区分全局变量和局部变量 能够说出如何在作用域链中查找变量的值 1 作用域 1 1 作用域概述 通常来说 一段程序代码中所用到的名字并不总是有效和可用的 而限定这个名字的可用性的代
  • 慢速,混合和快速衰减模式。为什么我们要把事情复杂化?

    慢速 混合和快速衰减模式 为什么我们要把事情复杂化 如果你正在驱动感性负载 而它是有刷或无刷直流电机 步进电机 螺线管或继电器 你一定经历过一些问题 比如不需要的电流在不受欢迎的方向流动 如果你没有考虑到物理定律的这个事实 那么你有可能只有
  • caddy php h5ai,使用Docker快速安装H5ai网盘、内置HTML5视频播放器DPlayer

    说明 本镜像由iLemonrain大佬制作 使用的是LOC冻猫大佬修改的H5ai源码 其内置了HTML5视频播放器DPlayer 这里说下安装方法 安装 本镜像使用环境为Apache 2 4 PHP 7 1 1 安装Docker CentO
  • 每次都忘记:vscode把空格替换成换行符并换行显示

    勾选正则表达式 空格直接打 换行用 n
  • Cocos2d-x简单游戏<捕鱼达人>代码实现

    这个简单的捕鱼游戏Demo只是完成了简单的 1 场景切换 数据加载 武器等级更换 lt 大炮的升级 gt 2 鱼的随机游动 大炮发射子弹 撒网 捕鱼 3 子弹 鱼 网的碰撞检测等 4 场景及背景音乐的定时更换 碰撞时得音效 仅供参考 入门练
  • 100m光纤测速多少正常_光纤收发器的六个指示灯代表是什么意思?

    对光纤收发器这块了解的朋友应该知道 光纤收发器有6个LED指示灯 它们分别显示了收发器的工作状态 根据LED所示 我们就能判断出收发器是否工作正常和可能有什么问题 从而能帮助找出故障 那么 光纤收发器的六个指示灯分别代表什么意思 有哪些作用
  • 2015-2023年全球医疗器械公司100强(附细分领域排行)

    目录 2023全球医疗器械企业100强榜单 12家中国企业上榜 2022年度全球医疗器械公司100强排行榜 2021年全球医疗器械百强排行榜 2020年全球医疗器械企业100强公布 年份待定 2020全球医疗器械100强 2019年度全球医
  • JWT原理解析与实现

    1 Token与Session优缺点概述 1 1 Session的由来 在登录一个网站进行访问时由于HTTP协议是无状态的就是说一次HTTP请求后他就会被销毁 比如我在www a com login里面登录了 然后你就要访问别的了比如要访问
  • PicoDet论文译读笔记

    PP PicoDet A Better Real Time Object Detector on Mobile Devices 摘要 在目标检测中如何实现更好的精度 速度均衡是一个具有挑战性的问题 在本文中 作者致力于目标检测中关键组件的优
  • yolov6论文翻译

    摘要 多年来 YOLO系列一直是高效物体检测的事实上的工业级标准 YOLO社区以压倒性的优势丰富了它在众多硬件平台和丰富场景中的应用 在这份技术报告中 我们努力把它的极限推到一个新的水平 以坚定不移的心态向行业应用迈进 考虑到现实环境中对速
  • uniapp封装request请求

    在基础文件里面创建一个api文件 在创建两个 js文件 http js 里面封装 request 请求 let baseUrl https white 511 toponet cn 基地址 export const request opti
  • 头歌(C语言)-数据结构与算法-排序-第2关:实现快速排序

    任务描述 相关知识 编程要求 评测说明 任务描述 本关要求通过补全快速排序私有函数QSort 来供函数QuickSort调用 以此来实现快速排序的功能 相关知识 快速排序的基本过程是 从待排序记录中任选一个记录 以它的排序码作为中心值 将其
  • 关于单链表的函数

    关于单链表一些基础功能函数的总结 文章目录 关于单链表一些基础功能函数的总结 0 这个链表的结构体 1 输出单链表 2 创建单链表 头插法 3 链表 其中一个 的删除 4 链表的插入 5 单链表的快排 6 单链表变成循环链表 尾节点连上头结
  • 《Vision-Language Pre-Training with Triple Contrastive Learning》/《具有三重对比学习的视觉语言预训练》

    一 摘要 视觉语言表示学习很大程度上受益于通过对比损失 例如 InfoNCE损失 的图像 文本对齐 这种对齐策略能够最大化图像与其匹配文本之间的互信息 MI 然而 简单地执行跨模态对齐 CMA 不能确保来自相同模态的相似输入保持接近 这可能