图-文多模态，大模型，预训练

2023-11-03

参考老师的无敌课程
多模态任务是指需要同时处理两种或多种不同类型的数据（如图像、文本、音频等）的任务。例如，图像描述（image captioning）就是一种典型的多模态任务，它需要根据给定的图像生成相应的文本描述。多模态任务在人工智能领域具有重要的意义和应用价值，因为它们可以模拟人类在日常生活中处理多种信息源的能力。

近年来，随着深度学习技术的发展，多模态任务取得了显著的进步。特别是VIT（Vision Transformer）和CLIP（Contrastive Language–Image Pre-training）这两种基于Transformer模型的方法，极大地推动了多模态研究的发展。相比于传统的基于CNN（Convolutional Neural Network)的方法，Transformer能够对不同模态的数据进行统一建模，包括参数共享和特征融合。这极大地降低了多模态任务的复杂性和计算成本。

图-文任务是指需要同时处理图像和文本数据的任务，如图像描述、图像检索（image retrieval）、视觉问答（visual question answering）等。就图-文任务而言，ViLT首先使用Transformer移除了任务中目标检测模块，参照VIT将多模态任务更加优雅地解决。随后学术界就如何解决多模态任务，进行了不断地探究。网络结构也进行一系列变化，其中，单塔模型使用一个Transformer对图像，文本进行特征抽取；双塔模型则使用两个对应网络进行特征抽取；最近也逐步展现出统一的模型结构，即网络参数共享，可根据任务不同选择合适的模块进行解决。

在这里插入图片描述
参考: ViLT，多模态串讲上，多模态串讲下，albef与blip的高集成库（LAVIS）

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision (ICML 2021)

突出贡献： 在Image-Text对齐过程中，移除了目标检测。

算法流程：

首先使用Word Embedding对文本编码得到 E t E_t Et，使用Linear Projection对图像块进行编码得到 E i E_{i} Ei。并且在两个头部分别加入分类token。
随后向文本编码与图像编码中，加入位置编码 E p E_p Ep与模块编码 E m E_m Em，分别提供位置信息与属于哪个模态信息。
将 E t E_t Et与 E i E_i Ei拼接，得到最终输入序列 E i n E_{in} Ein。
（4） E i n E_{in} Ein输入到Transformer Encoder中进行信息计算交互。

损失函数：

Image Text Matching: 训练中，会人为创造一些不匹配的image和text，然后选取序列头部的token来判断图文是否匹配。
Masked Language Model: BERT的目标函数，随机mask一些单词，然后使用多模态信息进行预测。
Word Patch Aligment：保证word的特征分布与image的特征分布一致。

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (NeurIPS 2021)

突出贡献： （1）将Language model劈成两半，并且在多模态融合前首先进行image-text对齐。（2）使用Momentum Model作为‘老师网络’来缓解噪声数据的影响 （one-hot可能存在偏差，Momentum Model可以引入soft-label）。

算法流程：

模型包括一个image encoder与一个BERT，并且将BERT对半劈开，分别进行文本特征提取（text encoder）与多模态融合（multimodal encoder）。
image输入到image encoder（12层）提取特征，文本输入text encoder（6层）提取特征。
得到的文本与图像特征输入到multimodal encoder进行多模态融合。

损失函数：

Image-Text Contrastive loss: 使用对比损失来约束image与text的特征，positive靠近，negative远离。
Image-Text Matching(ITM): 选取对比计算中的hard negative，要求网络计算其是否匹配，赋予网络具有挑战的任务。
Masked Language Modeling(MLM): BERT的预训练函数。
Momentum Model（参考MOCO）: 拷贝自原有模型，其参数移动平均更新的很慢: P m o m e n t u m = m ∗ P m o m e n t u m + ( 1 − m ) ∗ P o r i g i n a l P_{momentum}=m * P_{momentum} + (1-m) * P_{original} Pmomentum=m∗Pmomentum+(1−m)∗Poriginal，模型会使用KL损失来约束原有网络与Momentum Model的输出。

VLMo - General-purpose Multimodal Pre-training (NeurIPS 2022)

突出贡献： 灵活！既不是单塔模型（擅长图文推理），也不是双塔模型（擅长图文检索），而是使用共享参数提取图像文本特征，然后训练几个专家，这样选择不同的专家就能解决不同的任务,专家就是网络中的不同Feed Forward。

算法流程：

首先预训练vision。具体来说mask调图像块，然后使用BEiT进行重建，训练V-FFN作为视觉专家。
其次训练language。冻结V-FFN与共享self-attention参数，使用文本训练语言专家L-FFN。（视觉参数直接在文本上使用）
训练vision-language专家VF-FFN。将网络都打开，输入图像-文本对来训练所有专家。

损失函数：

Image-Text Contrast: 打开V-FFN与L-FFN，模型转化为CLIP，擅长处理图文检索的任务
Image-Text Matching：打开V-FFN与L-FFN，VL-FFN，模型转化为ALBEF，变为双塔结构，擅长处理图文推理任务。
Masked LM: 打开V-FFN与L-FFN，VL-FFN是，使用BERT的的预训练函数（完形填空）训练模型。

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation （ICML22）

突出贡献： （ALBEF的后续） 灵活！出发点与VLMo一致，都是着重解决image-text任务中模型复杂的问题。另外对存在噪声的数据进行了caption filter筛选，得到了更好的数据对。

算法流程：

模型中Text Encoder；Image-grounded Text Encoder 与 Image-grounded Text decoder共享参数，与VLMo一致。
图像使用一个标准的Image Encoder来提取特征，text部分使用针对不同的任务来打开或关闭模型组件参数。

损失函数：

与ALBEF损失函数类似，知识MLM换成了LM（预测下一个词）。

Caption Filter模块

收集网络上噪声数据（ I w I_w Iw, T w T_w Tw），以及人工标注的数据( I h I_h Ih, T h T_h Th）
使用( I h I_h Ih, T h T_h Th）数据以及IT，ITM，LM损失函数训练Filter
使用Filter过滤（ I w I_w Iw, T w T_w Tw），并且使用Caption生成新数据（ I w I_w Iw, T s T_s Ts）。
最终将人工标注数据+过滤后的网络数据+生成的caption数据共同训练模型。

CoCa: Contrastive Captioners are Image-Text Foundation Models

突出贡献： （ALBEF的后续） 大力出奇迹！！！

Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks （CVPR 2023）

突出贡献： 大一统！！！损失函数统一为mask loss; 网络统一为Multiway Transformer（开关可控）。

将图像作为单词（image as a foreign language），所有都是NLP!!!，VLMo负责框架统一，Mask model负责损失统一。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

图-文多模态，大模型，预训练的相关文章

【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
链上繁荣,合作不断,外媒热议波场 TRON 2023 年度成绩

近日权威外媒Theblock 美联社和Decrypt等就波场 TRON 2023大事件进行了年度盘点报道指出波场TRON网络在2023年取得了一系列的发展和合作提升了其在Web3领域的地位其中波场TRON网络账户数量增加了 54
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
机器学习算法实战案例：BiLSTM实现多变量多步光伏预测

文章目录 1 数据处理 1 1 导入库文件 1 2 导入数据集 1 3 缺失值分析 2 构造训练数据
AI在广告中的应用——预测性定位和调整

营销人员的工作就是在恰当的时间将适合的产品呈现在消费者面前从而增加他们购买的可能性随着时间的推移营销人员能够深入挖掘越来越精准的客户细分市场他们不仅具备了实现上述目标的能力而且这种能力还在呈指数级提升在AI技术帮助下现在的营销
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
开始弃用NeRF？为什么Gaussian Splatting在自动驾驶场景如此受欢迎？（浙江大学最新）...

点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取今天自动驾驶之心为大家分享浙大刚刚出炉的3D Gaussian Splatting综述文章首先回顾了3D Gaussian的原理和应用借着全面比较了3D GS在静态
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
AI 赋能绿色制冷，香港岭南大学开发 DEMMFL 模型进行建筑冷负荷预测

近年来城市化进程加速所带来的碳排放量骤增已经严重威胁到了全球环境多个国家均已给出了碳达峰碳中和的明确时间点一场覆盖全球全行业的绿色革命已经拉开序幕在一众行业中建筑是当之无愧的能耗大户其中又以暖通空调 Heating

随机推荐

结合入栈出栈浅谈前序遍历，中序遍历，后序遍历

二叉树深度遍历讨巧应付面试以前其实也懂什么叫二叉树的前中后序遍历反正面试的时候给我一个二叉树我是知道怎么写出他们的答案的例如如下二叉树前序遍历 A B D E C F G 中序遍历 D B E A F C G 后序遍历 D E
Infinite Fraction Path【HDU-6223】【BFS+剪枝】

题目链接训练赛的时候想到的做法是倍增维护因为每个点的后继是唯一的然后又因为不会桶排所以的复杂度是一定会TLE的难受听说桶排还是会被卡大雾然后下来补题的时候听了队友的意见其实比赛的时候就应该多听听也许就能想到这个bfs了
某返利网站admin目录index.php文件混淆加密算法分析

恢复内容开始文件已经加密可以在此下载 index php 文件内容打开大概如此简单字符替换之后发现字符串用base64 decode仍无法解码找到一个解码网站找源码解码后的文件如下下载地址尾部仍然有大量未知编码内容简单修
IP协议的服务类型（翻译RFC 1349）

目录 1 简介 2 目标和理念 3 服务八位字节类型规范 4 TOS字段的规范 5 Internet协议中TOS字段的使用 5 1 Internet控制消息协议 ICMP 5 2传输协议 5 3应用协议 6 ICMP和TOS字段 6 1无法
圆投影匹配算法描述及实现

解决模板图和基准图之间存在任意角度旋转的景象匹配问题的关键是找到一个旋转不变量圆投影匹配算法就是利用圆的各向同性和投影特征提出来的传统的图像匹配算法如归一化交叉互相关算法主要利用像素点与像素点之间的相关性计算匹配图像与模板之间的
数据结构day4

https note youdao com s SwyFfOgRhttps note youdao com s SwyFfOgR 学生管理系统头文件 ifndef STULIST H define STULIST H include
Qt布局的使用

1 控件的sizePolicy设置了Fixed 再一点击设置布局控件的大小又自动调整了解决方法设置布局后再手动调整控件大小 2 在要布局的部件上右键 gt Lay out 如果该部件不支持布局则右键菜单中不会出现 Lay out
Hadoop学习——MapReduce的job机制和job链介绍

前边写了MapReduce的介绍以及四大组件序列化机制和排序这一篇记录一下MapReduce相关的job机制对于在代码里我们总要有一个Driver 比如下边 public static void main String args
ORA-01075,ORA-09925 Read-only file system问题一例

OEL 5 7 ORACLE RAC 11 2 0 2 在运行过程中系统监控台出现journal commit I O error的信息 SQL gt oradebug Message from syslogd at Fri Oct 14
java 远程接口_java中如何正确的使用远程接口

服务器必须包含一个扩展了UnicastRemoteObject的类并实现远程接口这个类也可以含有附加的方法但客户只能使用远程接口中的方法这是显然的因为客户得到的只是指向接口的一个句柄而非实现它的那个类必须为远程对象明确定义构建
JVM 内存模型

内存划分 java虚拟机按照运行时内存使用区域划分如图区域是否线程共享是否会内存溢出程序计数器否不会 java虚拟机栈否会本地方法栈否会堆是会方法区是会一程序计数器 Program Counter Re
Qt中的 connect 函数

1 connect 函数实现的是信号与槽的关联注意只有QO bject类及其派生的类才能使用信号和槽的机制 2 函数原型 static QMetaObject Connection connect const QObject sende
Qt中信号槽的连接方式

Qt AutoConnection 如果信号发送者和接收者在同一线程 Qt DirectConnection被使用否则Qt QueuedConnection被使用 Qt DirectConnection 信号发送信号槽立刻执行 Qt Q
scheduler Unhealthy Get “http://127.0.0.1:10251/healthz“: dial tcp 127.0.0.1:10251: con

解决方法 cd etc kubernetes manifest 然后将你的scheduler以及controll manager yaml中把port 0注释掉 containers command kube scheduler authe
gitlab如何创建用户并登录

为了大家后期能方便创建用户和使用gitlab 先给大家设置为中文设置为中文后保存然后刷新页面即可设置为中文接下来教大家怎么创建git用户并进行登录创建完用户后需要配置一次密码配置完密码后退出用户测试进行新用户登录这里用刚创建的新用
SpringBoot项目jar、war包启动解析

一 jar包和war包的区别 1 1 war包 war包是Java Web应用程序的一种打包方式符合Servlet标准它是Web Archive的缩写主要用于存储Web应用程序相关的文件包括Java类文件 JSP HTML CSS J
动手实现Linux内核编译与安装

Linux内核是一个用C语言写成的符合POSIX标准的类Unix操作系统内核是操作系统中最基本的一部分提供了众多应用程序访问计算机硬件的机制 Linux内核的一大特点就是采用了整体式结构有很多过程组成每个过程都可以独立编译其模块
C++ 好用的包管理工具--vcpkg

背景 Windows 下开发 C C 程序少不了编译开源的第三方库使用这些库开发极大的方便了程序员使得我们不必重复造轮子由于开源库绝大部分都来源于 Linux 系统将其移植到 Windows 的 VC 开发环境下编译比较复杂和麻烦
vite运行项目报错events.js:352 throw er； // Unhandled ‘error‘ event

解决方法运行命令 node node modules esbuild install js 启动项目 npm run dev
图-文多模态，大模型，预训练

参考老师的无敌课程多模态任务是指需要同时处理两种或多种不同类型的数据如图像文本音频等的任务例如图像描述 image captioning 就是一种典型的多模态任务它需要根据给定的图像生成相应的文本描述多模态任务在人工智能领

图-文多模态，大模型，预训练

图-文多模态，大模型，预训练 的相关文章

随机推荐

热门标签

图-文多模态，大模型，预训练的相关文章