Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解

2023-11-17

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks

传统的视觉语言任务中，如果数据集是长尾分布的，attention机制更加关注head的信息，如果问及long-tail的问题会得到错误的答案。

符号	含义
C	共识
X	输入特征
Z	attention从X中学到的信息
M	目标识别从X中提取的实体集
Y	输出标签

因果图：

C->M与C->X：X的特征提取需要依据共识，M是在共识的前提下从X中提取的
X->M与X->Z：M是在共识的前提下从X中提取的,Z是attention从X中学到的信息
M->Y与Z->Y：视觉语言任务中，Y是根据Z进行分类然后从M中的实体选择的

核心：运用前门调整公式
P ( Y ∣ d o ( X ) ) = ∑ z ∈ Z P ( Z = z ∣ X ) ∑ x ∈ X P ( X = x ) P ( Y ∣ Z = z , X = x ) P(Y|do(X))=\displaystyle \sum_{z \in Z}P(Z=z|X)\sum_{x \in X}P(X=x)P(Y|Z=z,X=x) P(Y∣do(X))=z∈Z∑P(Z=z∣X)x∈X∑P(X=x)P(Y∣Z=z,X=x)
即同时运用全概率公式：
P ( Y ∣ X ) = ∑ z ∈ Z P ( Z = z ∣ X ) P ( Y ∣ Z = z ) P(Y|X)=\displaystyle \sum_{z \in Z}P(Z=z|X)P(Y|Z=z) P(Y∣X)=z∈Z∑P(Z=z∣X)P(Y∣Z=z)
与后门调整公式：
P ( Y ∣ d o ( Z ) ) = ∑ x ∈ X P ( X = x ) P ( Y ∣ Z , X = x ) P(Y|do(Z))=\displaystyle \sum_{x \in X}P(X=x)P(Y|Z,X=x) P(Y∣do(Z))=x∈X∑P(X=x)P(Y∣Z,X=x)
其中 ∑ z P ( Z = z ∣ X ) \sum_{z}P(Z=z|X) ∑zP(Z=z∣X)可以用In-Sample Sampling来去模拟，即从当前样本中学习信息； ∑ x P ( X = x ) \sum_{x}P(X=x) ∑xP(X=x)可以用Cross-Sample Sampling来去模拟，这里的x不同于In-Sample Sampling中的x，因此是跨样本的信息采集。
采集到Z和X的信息之后，可以利用神经网络g来计算
P ( Y ∣ Z , X = x ) = S o f t m a x ( g ( X , Z ) ) P(Y|Z,X=x)=Softmax(g(X,Z)) P(Y∣Z,X=x)=Softmax(g(X,Z))
然后运用NWGM再把前面的两个采样方法加进来，把采样的过程转化为调整embedding的过程
因为 E x [ y ( x ) ] = ∑ x y ( x ) P ( x ) \mathbb{E}_x[y(x)]=\sum_x y(x)P(x) Ex[y(x)]=∑xy(x)P(x)，而 W G M ( y ( x ) ) = ∏ x y ( x ) P ( x ) WGM(y(x))=\prod_x y(x)^{P(x)} WGM(y(x))=∏xy(x)P(x)，前面是算数平均，后面是几何平均，如果X数量比较大那么二者是相当接近的，因此可以有
E x [ y ( x ) ] ≈ W G M ( y ( x ) ) \mathbb{E}_x[y(x)] \approx WGM(y(x)) Ex[y(x)]≈WGM(y(x))
在 y ( x ) = e g ( x ) y(x)=e^{g(x)} y(x)=eg(x)的前提下有：
W G M ( y ( x ) ) = ∏ x y ( x ) P ( x ) = ∏ x e g ( x ) P ( x ) = ∏ x e g ( x ) P ( x ) = e ∑ x g ( x ) P ( x ) = e ∑ x E x ( g ( x ) ) \begin{aligned} WGM(y(x))&=\prod_x y(x)^{P(x)}\\ &=\prod_x {e^{g(x)}}^{P(x)}\\ &=\prod_x e^{g(x)P(x)}\\ &=e^{\displaystyle \sum_x g(x)P(x)}\\ &=e^{\displaystyle \sum_x \mathbb{E}_x(g(x))} \end{aligned} WGM(y(x))=x∏y(x)P(x)=x∏eg(x)P(x)=x∏eg(x)P(x)=ex∑g(x)P(x)=ex∑Ex(g(x))
因此，有 E x [ y ( x ) ] ≈ W G M ( y ( x ) ) = e ∑ x E x ( g ( x ) ) \mathbb{E}_x[y(x)] \approx WGM(y(x))=e^{\sum_x \mathbb{E}_x(g(x))} Ex[y(x)]≈WGM(y(x))=e∑xEx(g(x))
带入 P ( Y ∣ d o ( X ) ) P(Y|do(X)) P(Y∣do(X))有
P ( Y ∣ d o ( X ) ) = ∑ z ∈ Z P ( Z = z ∣ X ) ∑ x ∈ X P ( X = x ) P ( Y ∣ Z = z , X = x ) = E [ Z ∣ X ] E [ X ] [ P ( Y ∣ Z , X ) ] ≈ W G M ( P ( Y ∣ Z , X = x ) ) ≈ e g ( E [ Z ∣ X ] [ Z ] , E [ X ] [ X ] ) ≈ S o f t m a x [ g ( X ^ , Z ^ ) ] \begin{aligned} P(Y|do(X))&=\displaystyle \sum_{z \in Z}P(Z=z|X)\sum_{x \in X}P(X=x)P(Y|Z=z,X=x)\\ &=\mathbb{E}_{[Z|X]}\mathbb{E}_{[X]}[P(Y|Z,X)]\\ &\approx WGM(P(Y|Z,X=x))\\ &\approx e^{g(\mathbb{E}_{[Z|X]}[Z],\mathbb{E}_{[X]}[X])}\\ &\approx Softmax[g(\hat{X},\hat{Z})] \end{aligned} P(Y∣do(X))=z∈Z∑P(Z=z∣X)x∈X∑P(X=x)P(Y∣Z=z,X=x)=E[Z∣X]E[X][P(Y∣Z,X)]≈WGM(P(Y∣Z,X=x))≈eg(E[Z∣X][Z],E[X][X])≈Softmax[g(X^,Z^)]
在前面根据神经网络有 P ( Y ∣ Z , X = x ) = S o f t m a x ( g ( X , Z ) ) ≈ e g ( X , Z ) P(Y|Z,X=x)=Softmax(g(X,Z)) \approx e^{g(X,Z)} P(Y∣Z,X=x)=Softmax(g(X,Z))≈eg(X,Z),这不满足 P ( Y ∣ Z , X = x ) = e g ( X , Z ) P(Y|Z,X=x)=e^{g(X,Z)} P(Y∣Z,X=x)=eg(X,Z)的前提，因此WGM后还需要近似。
最后softmax的目的是为了让所有概率加起来总和为1

其中：
Z ^ = ∑ z ∈ Z P ( Z = z ∣ h ( X ) ) z ≈ V I S o f t m a x ( Q I T K I ) \begin{aligned} \hat{Z}&=\displaystyle \sum_{z \in Z}P(Z=z|h(X))z\\ &\approx V_I Softmax({Q_I}^T K_I) \end{aligned} Z^=z∈Z∑P(Z=z∣h(X))z≈VISoftmax(QITKI)
X ^ = ∑ x ∈ X P ( X = x ∣ f ( X ) ) x ≈ V C S o f t m a x ( Q C T K C ) \begin{aligned} \hat{X}&=\displaystyle \sum_{x \in X}P(X=x|f(X))x\\ &\approx V_C Softmax({Q_C}^T K_C) \end{aligned} X^=x∈X∑P(X=x∣f(X))x≈VCSoftmax(QCTKC)
CATT可以放在BERT架构或者其他Transformer模型的深度神经网络之前，很容易使用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解的相关文章

日期自然语言解析器（.NET）？

我希望能够让用户使用自然语言例如下周五每个工作日输入日期包括重复日期很像以下的例子http todoist com Help timeInsert http todoist com Help timeInsert I found
在哪里可以找到英语短语列表？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我的任务是搜索文本中陈词滥调和常见短语的用法这些短语与您在财富之轮的短语谜题中可能看到的短语类似这
target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？

根据这个链接 https www tensorflow org datasets api docs python tfds features text SubwordTextEncoder build from corpus target
生成易于记忆的随机标识符

与所有开发人员一样我们在日常工作中不断处理某种标识符大多数时候它与错误或支持票有关我们的软件在检测到错误后会创建一个包该包的名称由时间戳和版本号格式化这是创建合理唯一标识符以避免混淆包的一种廉价方法例子错误报告 20101
否定句子的算法

我想知道是否有人熟悉算法句子否定的任何尝试例如给定一个句子这本书很好请提供任意数量的意思相反的替代句子例如这本书不好甚至这本书不好显然以高精度实现这一点可能超出了当前 NLP 的范围但我确信在这个主题上已经有了一些工作
语音识别中如何处理同音词？

对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的我提供以下示例我们的是嗨和高到太二在使用时语音API https developer apple com docume
用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
实时跟踪每分钟/小时/天的前 100 个 Twitter 单词

我最近遇到这样一个面试问题 Given a continuous twitter feed design an algorithm to return the 100 most frequent words used at this min
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
gensim如何计算doc2vec段落向量

我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出段落向量和词向量被平
是否可以使用 Google BERT 来计算两个文本文档之间的相似度？

是否可以使用 Google BERT 来计算两个文本文档之间的相似度据我了解 BERT 的输入应该是有限大小的句子一些作品使用 BERT 来计算句子的相似度例如 https github com AndriyMulyar semant
NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
如何提取句子中的主语及其各自的从属短语？

我正在尝试在句子中进行主题提取以便我能够根据主题获得情感我在用nltk在 python2 7 中用于此目的以下面的句子为例 Donald Trump is the worst president of USA but Hillary
验证 Transformer 中多头注意力的实现

我已经实施了MultiAttention head in Transformers 周围有太多的实现所以很混乱有人可以验证我的实施是否正确 DotProductAttention 引用自 https www tensorflow org
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
用于词性标记的优秀 Java 库是什么？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Lucene 标准分析器与 Snowball

刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行运行了一些测试查询并注意到如果原始术语是单数则复数查询不会返回结果我知道雪球分析器增加了词干支持这听起来不错不过我想知道超过标准的雪球锣是否有任何
如何从 Pandas DataFrame 转换为 Tensorflow BatchDataset 以进行 NLP？

老实说我想弄清楚如何转换数据集格式 pandasDataFrame或 numpy 数组转换为简单文本分类张量流模型可以训练用于情感分析的形式我使用的数据集类似于 IMDB 包含文本和标签正面或负面我看过的每个教程要么以不同的方式
Keras：嵌入/向量的附加层？

我有 3 个词嵌入嵌入 1 w11 w12 w13 w14 嵌入 2 w21 w22 w23 w24 嵌入 3 w31 w32 w33 w34 有没有办法通过添加所有三个向量来获得第四个嵌入并使用所有向量的可训练权重例如嵌入 4 w
使用 OpenNLP 获取句子的解析树。陷入困境。

OpenNLP 是一个关于自然语言处理的 Apache 项目 NLP 程序的目标之一是解析一个句子并给出其语法结构的树例如天空是蓝色的这句话可能会被解析为 S NP VP The sky is blue where S是句子 NP

随机推荐

【每日多题之贪心】

文章目录 1 分割平衡字符串 1 1 题目描述 1 2 题目分析 1 3 代码实现 2 最少操作数使数组递增 2 1 题目描述 2 2 题目分析 2 3 代码实现 3 卡车上的最大单元数 3 1 题目描述 3 2 题目分析 3 3 代码实现
使用UML编写Java应用程序

引言统一建模语言 Unified Modeling Language 简写为UML 是一种通用的模拟语言它可以用于确定展示和记录软件系统的设计过程统一建模语言中的图形标记尤其是用于面向对象的软件设计它有两大优点 1 UML是国际
iframe添加loading效果

问题当一个页面嵌入iframe时 iframe加载会有延迟即在iframe元素展现前嵌入iframe的父页面会有一段白屏情况用户感知不到iframe页面在加载体验效果不是很好解决方法为了提升用户体验让用户感知到当前页面在加载
FISCO BCOS离线搭建单机单群组4节点

系列文章目录第一章 FISCO BCOS在线搭建单机单群组4节点文章目录系列文章目录前言一安装准备 1 安装依赖包 2 创建操作目录 3 下载脚本三搭建单群组4节点联盟链 1 暂停并清除FISCO BCOS 2 搭建区块链
Python实战

逆向完美世界登录 js代码调试阶段 1 查看密码关键字段 2 Ctrl shift f全局搜索 password 找到相关js文件 3 从代码的setpublickey encrypt关键字可以看出使用了非对称加密算法 4 此处打断点再
ubuntu 使用FFTW快速计算离散傅里叶变换

FFTW the Faster Fourier Transform in the West 是一个快速计算离散傅里叶变换的标准C语言程序集其由MIT的M Frigo 和S Johnson 开发可计算一维或多维实和复数据以及任意规模的DF
解决Xilinx_ISE 14.7在Win10下选择“open project”崩溃闪退的问题

解决Xilinx ISE 14 7在Win10下选择 open project 崩溃闪退的问题问题描述 ISE 14 7对win10无法完美支持在使用64位ISE时点击OPEN之类的东西时程序都会崩溃虽然使用32位不会有这个问题但是
nvidia-docker容器迁移导致GPU启动失败解决方案

引言起因是最近发现一个很有趣的问题当我的docker容器迁移到另一台服务器去因为GPU版本不一致导致项目启动是会报错为 CUDA error CUDA ERROR NO DEVICE no CUDA capable device is
Python爬虫如何获取页面内所有URL链接？本文详解

如何获取一个页面内所有URL链接在Python中可以使用urllib对网页进行爬取然后利用Beautiful Soup对爬取的页面进行解析提取出所有的URL 什么是Beautiful Soup Beautiful Soup提供一些简单
mxnet.ndarray.slice_axis 沿给定轴切片

mxnet ndarray slice axis data None axis Null begin Null end Null out None name None kwargs 作用沿给定轴切片返回沿给定轴从开始索引到结束索引的数组
论文笔记-2019-Object Detection in 20 Years: A Survey

Object Detection in 20 Years A Survey Zhengxia Zou Zhenwei Shi Member IEEE Yuhong Guo and Jieping Ye Senior Member IEEE论
kafkatemplate无法注入_Spring-Kafka（三）-KafkaTemplate发送消息及结果回调

我们使用KafkaTemplate send String data 这个方法发送消息到Kafka中显然这个方法并不能满足我们系统的需求那我们需要查看一下KafkaTemplate所实现的接口看看还提供了什么方法当我们发送消息到Ka
WPS excel 使用 MAX() 函数为合并单元格自动填充序号编号

在一些统计表格时会把一些内容使用合并单元格作归类甚至需要给他们编号每一个合并后的单元格包括的行数是不规律的本文对不规律的单元格如何填充序号进行介绍现有如下表格内容需要在 A 列按照 B 列的功能单元格进行排序步骤 1 如下图
HTML 初识

前言 HTML的基本骨架 HTML基本骨架是构建网页的最基本的结果指定文档类型为HTML5 表示整个HTML文档的根元素包含了与文档相关的设置和定义如字符编码标题等
微信支付--调起支付（整理、思路）

小程序微信支付小程序支付 public JSONObject minMpPay String reqBody throws Exception 第一步获取prepay id String prepayId WxPayV3Util v3Pa
windows线程同步基础

windows线程同步基础一用户方式同步同步速度非常快互锁函数家族只能在单值上运行根本无法使线程进入等待状态可以使用关键代码段使线程进入等待状态但是只能用这些代码段对单个进程中的线程实施同步还有使用关键代码段时很容易陷
拳王虚拟项目公社：低价电影票怎样赚钱，低价电影票实操赚钱方法

不管是线上还是线下资源的交换讲究的是资源对等尤其是资源小白上路往往没有什么方向感每天不知道该干嘛做什么行动有效果如果看不到希望特别磨灭一个人内心这种痛苦是煎熬的是难以忍受的拳王虚拟项目公社低价电影票怎样赚钱低价电
JavaWeb知识梳理(后端部分)

JavaWeb 静态web资源如html 页面指web页面中供人们浏览的数据始终是不变动态web资源指web页面中供人们浏览的数据是由程序产生的不同时间点访问web页面看到的内容各不相同静态web资源开发技术 HTML CSS
mysql存储过程之传递参数

in 表示传入的参数 in 参数名1 参数类型 in 参数名2 参数类型 delimiter create procedure func in id int begin select from 表 where Id id 查询Id id的信
Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解

Causal Attention for Vision Language Tasks Paper Causal Attention for Vision Language Tasks 传统的视觉语言任务中如果数据集是长尾分布的 atten

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解 的相关文章

随机推荐

热门标签

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解的相关文章