Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解

2023-11-17

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks

传统的视觉语言任务中,如果数据集是长尾分布的,attention机制更加关注head的信息,如果问及long-tail的问题会得到错误的答案。

符号 含义
C 共识
X 输入特征
Z attention从X中学到的信息
M 目标识别从X中提取的实体集
Y 输出标签

因果图:

C
X
M
Y
Z

C->M与C->X:X的特征提取需要依据共识,M是在共识的前提下从X中提取的
X->M与X->Z:M是在共识的前提下从X中提取的,Z是attention从X中学到的信息
M->Y与Z->Y:视觉语言任务中,Y是根据Z进行分类然后从M中的实体选择的

核心:运用前门调整公式
P ( Y ∣ d o ( X ) ) = ∑ z ∈ Z P ( Z = z ∣ X ) ∑ x ∈ X P ( X = x ) P ( Y ∣ Z = z , X = x ) P(Y|do(X))=\displaystyle \sum_{z \in Z}P(Z=z|X)\sum_{x \in X}P(X=x)P(Y|Z=z,X=x) P(Ydo(X))=zZP(Z=zX)xXP(X=x)P(YZ=z,X=x)
即同时运用全概率公式:
P ( Y ∣ X ) = ∑ z ∈ Z P ( Z = z ∣ X ) P ( Y ∣ Z = z ) P(Y|X)=\displaystyle \sum_{z \in Z}P(Z=z|X)P(Y|Z=z) P(YX)=zZP(Z=zX)P(YZ=z)
与后门调整公式:
P ( Y ∣ d o ( Z ) ) = ∑ x ∈ X P ( X = x ) P ( Y ∣ Z , X = x ) P(Y|do(Z))=\displaystyle \sum_{x \in X}P(X=x)P(Y|Z,X=x) P(Ydo(Z))=xXP(X=x)P(YZ,X=x)
其中 ∑ z P ( Z = z ∣ X ) \sum_{z}P(Z=z|X) zP(Z=zX)可以用In-Sample Sampling来去模拟,即从当前样本中学习信息; ∑ x P ( X = x ) \sum_{x}P(X=x) xP(X=x)可以用Cross-Sample Sampling来去模拟,这里的x不同于In-Sample Sampling中的x,因此是跨样本的信息采集。
采集到Z和X的信息之后,可以利用神经网络g来计算
P ( Y ∣ Z , X = x ) = S o f t m a x ( g ( X , Z ) ) P(Y|Z,X=x)=Softmax(g(X,Z)) P(YZ,X=x)=Softmax(g(X,Z))
然后运用NWGM再把前面的两个采样方法加进来,把采样的过程转化为调整embedding的过程
因为 E x [ y ( x ) ] = ∑ x y ( x ) P ( x ) \mathbb{E}_x[y(x)]=\sum_x y(x)P(x) Ex[y(x)]=xy(x)P(x),而 W G M ( y ( x ) ) = ∏ x y ( x ) P ( x ) WGM(y(x))=\prod_x y(x)^{P(x)} WGM(y(x))=xy(x)P(x),前面是算数平均,后面是几何平均,如果X数量比较大那么二者是相当接近的,因此可以有
E x [ y ( x ) ] ≈ W G M ( y ( x ) ) \mathbb{E}_x[y(x)] \approx WGM(y(x)) Ex[y(x)]WGM(y(x))
y ( x ) = e g ( x ) y(x)=e^{g(x)} y(x)=eg(x)的前提下有:
W G M ( y ( x ) ) = ∏ x y ( x ) P ( x ) = ∏ x e g ( x ) P ( x ) = ∏ x e g ( x ) P ( x ) = e ∑ x g ( x ) P ( x ) = e ∑ x E x ( g ( x ) ) \begin{aligned} WGM(y(x))&=\prod_x y(x)^{P(x)}\\ &=\prod_x {e^{g(x)}}^{P(x)}\\ &=\prod_x e^{g(x)P(x)}\\ &=e^{\displaystyle \sum_x g(x)P(x)}\\ &=e^{\displaystyle \sum_x \mathbb{E}_x(g(x))} \end{aligned} WGM(y(x))=xy(x)P(x)=xeg(x)P(x)=xeg(x)P(x)=exg(x)P(x)=exEx(g(x))
因此,有 E x [ y ( x ) ] ≈ W G M ( y ( x ) ) = e ∑ x E x ( g ( x ) ) \mathbb{E}_x[y(x)] \approx WGM(y(x))=e^{\sum_x \mathbb{E}_x(g(x))} Ex[y(x)]WGM(y(x))=exEx(g(x))
带入 P ( Y ∣ d o ( X ) ) P(Y|do(X)) P(Ydo(X))
P ( Y ∣ d o ( X ) ) = ∑ z ∈ Z P ( Z = z ∣ X ) ∑ x ∈ X P ( X = x ) P ( Y ∣ Z = z , X = x ) = E [ Z ∣ X ] E [ X ] [ P ( Y ∣ Z , X ) ] ≈ W G M ( P ( Y ∣ Z , X = x ) ) ≈ e g ( E [ Z ∣ X ] [ Z ] , E [ X ] [ X ] ) ≈ S o f t m a x [ g ( X ^ , Z ^ ) ] \begin{aligned} P(Y|do(X))&=\displaystyle \sum_{z \in Z}P(Z=z|X)\sum_{x \in X}P(X=x)P(Y|Z=z,X=x)\\ &=\mathbb{E}_{[Z|X]}\mathbb{E}_{[X]}[P(Y|Z,X)]\\ &\approx WGM(P(Y|Z,X=x))\\ &\approx e^{g(\mathbb{E}_{[Z|X]}[Z],\mathbb{E}_{[X]}[X])}\\ &\approx Softmax[g(\hat{X},\hat{Z})] \end{aligned} P(Ydo(X))=zZP(Z=zX)xXP(X=x)P(YZ=z,X=x)=E[ZX]E[X][P(YZ,X)]WGM(P(YZ,X=x))eg(E[ZX][Z],E[X][X])Softmax[g(X^,Z^)]
在前面根据神经网络有 P ( Y ∣ Z , X = x ) = S o f t m a x ( g ( X , Z ) ) ≈ e g ( X , Z ) P(Y|Z,X=x)=Softmax(g(X,Z)) \approx e^{g(X,Z)} P(YZ,X=x)=Softmax(g(X,Z))eg(X,Z),这不满足 P ( Y ∣ Z , X = x ) = e g ( X , Z ) P(Y|Z,X=x)=e^{g(X,Z)} P(YZ,X=x)=eg(X,Z)的前提,因此WGM后还需要近似。
最后softmax的目的是为了让所有概率加起来总和为1

其中:
Z ^ = ∑ z ∈ Z P ( Z = z ∣ h ( X ) ) z ≈ V I S o f t m a x ( Q I T K I ) \begin{aligned} \hat{Z}&=\displaystyle \sum_{z \in Z}P(Z=z|h(X))z\\ &\approx V_I Softmax({Q_I}^T K_I) \end{aligned} Z^=zZP(Z=zh(X))zVISoftmax(QITKI)
X ^ = ∑ x ∈ X P ( X = x ∣ f ( X ) ) x ≈ V C S o f t m a x ( Q C T K C ) \begin{aligned} \hat{X}&=\displaystyle \sum_{x \in X}P(X=x|f(X))x\\ &\approx V_C Softmax({Q_C}^T K_C) \end{aligned} X^=xXP(X=xf(X))xVCSoftmax(QCTKC)
CATT可以放在BERT架构或者其他Transformer模型的深度神经网络之前,很容易使用。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解 的相关文章

  • 日期自然语言解析器(.NET)?

    我希望能够让用户使用自然语言 例如 下周五 每个工作日 输入日期 包括重复日期 很像以下的例子http todoist com Help timeInsert http todoist com Help timeInsert I found
  • 在哪里可以找到英语短语列表? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我的任务是搜索文本中陈词滥调和常见短语的用法 这些短语与您在财富之轮的短语谜题中可能看到的短语类似 这
  • target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么?

    根据这个链接 https www tensorflow org datasets api docs python tfds features text SubwordTextEncoder build from corpus target
  • 生成易于记忆的随机标识符

    与所有开发人员一样 我们在日常工作中不断处理某种标识符 大多数时候 它与错误或支持票有关 我们的软件在检测到错误后 会创建一个包 该包的名称由时间戳和版本号格式化 这是创建合理唯一标识符以避免混淆包的一种廉价方法 例子 错误报告 20101
  • 否定句子的算法

    我想知道是否有人熟悉算法句子否定的任何尝试 例如 给定一个句子 这本书很好 请提供任意数量的意思相反的替代句子 例如 这本书不好 甚至 这本书不好 显然 以高精度实现这一点可能超出了当前 NLP 的范围 但我确信在这个主题上已经有了一些工作
  • 语音识别中如何处理同音词?

    对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的 我提供以下示例 我们的 是 嗨和高 到 太 二 在使用时语音API https developer apple com docume
  • 用于估计(一元)困惑度的 NLTK 包

    我正在尝试计算我所拥有的数据的困惑度 我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
  • 实时跟踪每分钟/小时/天的前 100 个 Twitter 单词

    我最近遇到这样一个面试问题 Given a continuous twitter feed design an algorithm to return the 100 most frequent words used at this min
  • NLTK 中的无监督 HMM 训练

    我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
  • gensim如何计算doc2vec段落向量

    我正在看这篇论文http cs stanford edu quocle paragraph vector pdf http cs stanford edu quocle paragraph vector pdf 它指出 段落向量和词向量被平
  • 是否可以使用 Google BERT 来计算两个文本文档之间的相似度?

    是否可以使用 Google BERT 来计算两个文本文档之间的相似度 据我了解 BERT 的输入应该是有限大小的句子 一些作品使用 BERT 来计算句子的相似度 例如 https github com AndriyMulyar semant
  • NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

    这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
  • 如何提取句子中的主语及其各自的从属短语?

    我正在尝试在句子中进行主题提取 以便我能够根据主题获得情感 我在用nltk在 python2 7 中用于此目的 以下面的句子为例 Donald Trump is the worst president of USA but Hillary
  • 验证 Transformer 中多头注意力的实现

    我已经实施了MultiAttention head in Transformers 周围有太多的实现 所以很混乱 有人可以验证我的实施是否正确 DotProductAttention 引用自 https www tensorflow org
  • Python模块可以访问英语词典,包括单词的定义[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我正在寻找一个 python 模块 它可以帮助我从英语词典中获取单词的定义 当然有enchant 这可以帮助我检查该单词是否存在于英语中
  • 用于词性标记的优秀 Java 库是什么? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • Lucene 标准分析器与 Snowball

    刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行 运行了一些测试查询 并注意到如果原始术语是单数 则复数查询不会返回结果 我知道雪球分析器增加了词干支持 这听起来不错 不过 我想知道 超过标准的雪球锣是否有任何
  • 如何从 Pandas DataFrame 转换为 Tensorflow BatchDataset 以进行 NLP?

    老实说 我想弄清楚如何转换数据集 格式 pandasDataFrame或 numpy 数组 转换为简单文本分类张量流模型可以训练用于情感分析的形式 我使用的数据集类似于 IMDB 包含文本和标签 正面或负面 我看过的每个教程要么以不同的方式
  • Keras:嵌入/向量的附加层?

    我有 3 个词嵌入 嵌入 1 w11 w12 w13 w14 嵌入 2 w21 w22 w23 w24 嵌入 3 w31 w32 w33 w34 有没有办法通过添加所有三个向量来获得第四个嵌入 并使用所有向量的可训练权重 例如 嵌入 4 w
  • 使用 OpenNLP 获取句子的解析树。陷入困境。

    OpenNLP 是一个关于自然语言处理的 Apache 项目 NLP 程序的目标之一是解析一个句子 并给出其语法结构的树 例如 天空是蓝色的 这句话 可能会被解析为 S NP VP The sky is blue where S是句子 NP

随机推荐

  • 【每日多题之贪心】

    文章目录 1 分割平衡字符串 1 1 题目描述 1 2 题目分析 1 3 代码实现 2 最少操作数使数组递增 2 1 题目描述 2 2 题目分析 2 3 代码实现 3 卡车上的最大单元数 3 1 题目描述 3 2 题目分析 3 3 代码实现
  • 使用UML编写Java应用程序

    引言 统一建模语言 Unified Modeling Language 简写为UML 是一种通用的模拟语言 它可以用于确定 展示和记录软件系统的设计过程 统一建模语言中的图形标记 尤其是用于面向对象的软件设计 它有两大优点 1 UML是国际
  • iframe添加loading效果

    问题 当一个页面嵌入iframe时 iframe加载会有延迟 即在iframe元素展现前 嵌入iframe的父页面会有一段白屏情况 用户感知不到iframe页面在加载 体验效果不是很好 解决方法 为了提升用户体验 让用户感知到当前页面在加载
  • FISCO BCOS离线搭建单机单群组4节点

    系列文章目录 第一章 FISCO BCOS在线搭建单机单群组4节点 文章目录 系列文章目录 前言 一 安装准备 1 安装依赖包 2 创建操作目录 3 下载脚本 三 搭建单群组4节点联盟链 1 暂停并清除FISCO BCOS 2 搭建区块链
  • Python实战

    逆向完美世界登录 js代码调试阶段 1 查看密码关键字段 2 Ctrl shift f全局搜索 password 找到相关js文件 3 从代码的setpublickey encrypt关键字可以看出 使用了非对称加密算法 4 此处打断点 再
  • ubuntu 使用FFTW快速计算离散傅里叶变换

    FFTW the Faster Fourier Transform in the West 是一个快速计算离散傅里叶变换的标准C语言程序集 其由MIT的M Frigo 和S Johnson 开发 可计算一维或多维实和复数据以及任意规模的DF
  • 解决Xilinx_ISE 14.7在Win10下选择“open project”崩溃闪退的问题

    解决Xilinx ISE 14 7在Win10下选择 open project 崩溃闪退的问题 问题描述 ISE 14 7对win10无法完美支持 在使用64位ISE时点击OPEN之类的东西时程序都会崩溃 虽然使用32位不会有这个问题 但是
  • nvidia-docker容器迁移导致GPU启动失败解决方案

    引言 起因是最近发现一个很有趣的问题 当我的docker容器迁移到另一台服务器去 因为GPU版本不一致导致项目启动是会报错为 CUDA error CUDA ERROR NO DEVICE no CUDA capable device is
  • Python爬虫如何获取页面内所有URL链接?本文详解

    如何获取一个页面内所有URL链接 在Python中可以使用urllib对网页进行爬取 然后利用Beautiful Soup对爬取的页面进行解析 提取出所有的URL 什么是Beautiful Soup Beautiful Soup提供一些简单
  • mxnet.ndarray.slice_axis 沿给定轴切片

    mxnet ndarray slice axis data None axis Null begin Null end Null out None name None kwargs 作用 沿给定轴切片 返回沿给定轴从开始索引到结束索引的数组
  • 论文笔记-2019-Object Detection in 20 Years: A Survey

    Object Detection in 20 Years A Survey Zhengxia Zou Zhenwei Shi Member IEEE Yuhong Guo and Jieping Ye Senior Member IEEE论
  • kafkatemplate无法注入_Spring-Kafka(三)-KafkaTemplate发送消息及结果回调

    我们使用KafkaTemplate send String data 这个方法发送消息到Kafka中 显然这个方法并不能满足我们系统的需求 那我们需要查看一下KafkaTemplate所实现的接口 看看还提供了什么方法 当我们发送消息到Ka
  • WPS excel 使用 MAX() 函数为合并单元格自动填充序号编号

    在一些统计表格时会把一些内容使用合并单元格作归类 甚至需要给他们编号 每一个合并后的单元格包括的行数是不规律的 本文对不规律的单元格如何填充序号进行介绍 现有如下表格内容 需要 在 A 列 按照 B 列的功能单元格进行排序 步骤 1 如下图
  • HTML 初识

    前言 HTML的基本骨架 HTML基本骨架是构建网页的最基本的结果 指定文档类型为HTML5 表示整个HTML文档的根元素 包含了与文档相关的设置和定义 如字符编码 标题等
  • 微信支付--调起支付(整理、思路)

    小程序微信支付 小程序支付 public JSONObject minMpPay String reqBody throws Exception 第一步获取prepay id String prepayId WxPayV3Util v3Pa
  • windows线程同步 基础

    windows线程同步 基础 一 用户方式同步 同步速度非常快 互锁函数家族只能在单值上运行 根本无法使线程进入等待状态 可以使用关键代码段使线程进入等待状态 但是只能用这些代码段对单个进程中的线程实施同步 还有 使用关键代码段时 很容易陷
  • 拳王虚拟项目公社:低价电影票怎样赚钱,低价电影票实操赚钱方法

    不管是线上还是线下 资源的交换 讲究的是资源对等 尤其是资源 小白上路 往往没有什么方向感 每天不知道该干嘛 做什么行动有效果 如果看不到希望 特别磨灭一个人内心 这种痛苦是煎熬的 是难以忍受的 拳王虚拟项目公社 低价电影票怎样赚钱 低价电
  • JavaWeb知识梳理(后端部分)

    JavaWeb 静态web资源 如html 页面 指web页面中供人们浏览的数据始终是不变 动态web资源 指web页面中供人们浏览的数据是由程序产生的 不同时间点访问web页面看到的内容各不相同 静态web资源开发技术 HTML CSS
  • mysql存储过程之传递参数

    in 表示传入的参数 in 参数名1 参数类型 in 参数名2 参数类型 delimiter create procedure func in id int begin select from 表 where Id id 查询Id id的信
  • Causal Attention for Vision-Language Tasks Paper: Causal Attention for Vision-Language Tasks个人理解

    Causal Attention for Vision Language Tasks Paper Causal Attention for Vision Language Tasks 传统的视觉语言任务中 如果数据集是长尾分布的 atten