Counterfactual Zero-Shot and Open-Set Visual Recognition (CVPR2021)

2023-10-30

这是南洋理工张含望老师组的作品，这篇文章从因果推理出发，来根据反事实推断设计模型，出发点非常的新颖，但不容易懂，因果推理理论是一个非常不错的帮助人换角度看问题的理论工具，多多学习。

文章全名叫 Counterfactual Zero-Shot and Open-Set Visual Recognition，其中文章的思想在 Counterfactual 反事实 上。贝叶斯网络之父”的 Pearl 写过一本通俗易懂的科普书《The Book of Why: The New Science of Cause and Effect》，中文版《为什么：关于因果关系的新科学》，提到因果关系的三个层次，即 关联、干预、和反事实推理。本文即利用了反事实推理，来“执果索因”。

这篇文章作者解释，给定动物的化石（fact），如果它还活着（counterfact），会是什么样子呢？给定现实世界的某个场景，如果这个场景到了动画世界，它是什么样子呢？我们的想象，通过建立在fact的基石上，就变得合情合理而非天马行空。那么可否在ZSL和OSR当中利用反事实产生合理的想象呢？我们首先为这两个任务构建了一个基于因果的生成模型Generative Causal Model (GCM)，我们假设观测到的图片 X X X 是由样本特征 Z Z Z（和类别无关，比如物体的pose等）和类别特征 Y Y Y（比如有羽毛，圆脸等）生成的。现有的基于生成的方法其实在学习 P ( X ∣ Z , Y ) P(X|Z,Y) P(X∣Z,Y)，然后把 Y Y Y 的值设为某个类的特征（比如ZSL中的dense label），把 Z Z Z 设成高斯噪声，就可以生成很多这个类的样本了。

文章提出的问题是 samples for unseen-classes 总是偏离 true distribution，导致严重的 severe recognition rate imbalance 在 seen 和 unseen 预测结果之间。作者说原因是 the generation is not Counterfactual Faithful。而解决办法则是提出一个 faithful 的方法，该方法基于一个特定样本的反事实问题：如果我们替换类别属性到一个特定的类别，而不改变样本属性，生成的样本会是什么样子呢？（解释一下就是，生成器由 z 和 a 的拼接结果生成特征，一般的方法 z 是高斯噪声，a 是属性，这里认为 z 包含了 pose 等与特定样本相关的特征，而 a 则包含的是特定类别包含的特征）。由于具有了 faithfulness，可以利用 consistency rule 来实现 unseen/seen binary classification，即对可见和不可见样本进行分类，作者说这是通过反事实的问题来实现的，即“Would its counterfactual still look like itself? If “yes”, the sample is from a certain class, and “no” otherwise. “ 。具体的，根据反事实 counter-fact y 产生很多反事实结果 x ~ \tilde x x~，找到与真实结果 x x x 最近的那个反事实结果 x ~ \tilde x x~，其对应的反事实 y 的 seen/unseen 结果能对样本进行 seen/unseen 分类。

通过上一段的介绍，再结合下图的图，文章的整体思路一目了然。即不断替换 class attribute 来进行反事实推断，从而达到 counterfacutal-faithful 的 generation，然后再通过 consistency rule 来进行域分类。
在这里插入图片描述
一般的方法基于一个假设：从训练集 seen classes 样本中学习的 attributes 可以迁移到 test unseen classes 中。而由于训练只能看到 seen classes，不可避免迎合 seen 的特质，从而无法准确的想象不可见样本，造成了特征偏移，如下左图，蓝色样本和绿色样本不能完全重叠，从而导致分类器不能很好的进行分类（黑色线），使得 seen 的准确率比 unseen 的高很多。

作者给定的反事实推断如下 b 所示，描述如下
在这里插入图片描述
即给定 fact ，Z = z（x），如果 Y = y，则 X = x ~ \tilde x x~。为什么叫反事实了，因为 Y = y(x) 是事实，令 Y = y (其他类别的属性)，则是反事实的，会产生反事实的结果，作者希望这些反事实的结果满足合理的分布。
在这里插入图片描述
那么借鉴了反事实的思想后，如何实现 Counterfactual Faithful 的 generation 呢，作者给出了三点

Disentangling Z from Y --> VAE loss，即 L Z = − E Q ϕ ( Z ∣ X ) [ P θ ( X ∣ Z , Y ) ] + β D K L ( Q ϕ ( Z ∣ X ) ∥ P ( Z ) ) \begin{aligned} \mathcal{L}_{Z}=&-\mathbb{E}_{Q_{\phi}(Z \mid X)}\left[P_{\theta}(X \mid Z, Y)\right] \\ &+\beta D_{K L}\left(Q_{\phi}(Z \mid X) \| P(Z)\right) \end{aligned} LZ=−EQϕ(Z∣X)[Pθ(X∣Z,Y)]+βDKL(Qϕ(Z∣X)∥P(Z))，这个 loss 是 VAEGAN 本来就有的

Disentangling Y from Z --> 对比损失，此乃原创，即
L Y = − log ⁡ exp ⁡ ( − dist ⁡ ( x , x y ) ) ∑ x ′ ∈ X ~ ∪ { x y } exp ⁡ ( − dist ⁡ ( x , x ′ ) ) \mathcal{L}_{Y}=-\log \frac{\exp \left(-\operatorname{dist}\left(\mathbf{x}, \mathbf{x}_{\mathbf{y}}\right)\right)}{\sum_{\mathbf{x}^{\prime} \in \tilde{X} \cup\left\{\mathbf{x}_{\mathbf{y}}\right\}} \exp \left(-\operatorname{dist}\left(\mathbf{x}, \mathbf{x}^{\prime}\right)\right)} LY=−log∑x′∈X~∪{xy}exp(−dist(x,x′))exp(−dist(x,xy))
**Further Disentangling by Faithfulness ** --> 对抗损失，即 L F = E [ D ( x , y ) ] − E [ D ( x ′ , y ) ] − λ E [ ( ∥ ∇ x ^ D ( x ^ , y ) ∥ 2 − 1 ) 2 ] \begin{aligned} \mathcal{L}_{F}=& \mathbb{E}[D(\mathbf{x}, \mathbf{y})]-\mathbb{E}\left[D\left(\mathbf{x}^{\prime}, \mathbf{y}\right)\right] \\ &-\lambda \mathbb{E}\left[\left(\left\|\nabla_{\hat{\mathbf{x}}} D(\hat{\mathbf{x}}, \mathbf{y})\right\|_{2}-1\right)^{2}\right] \end{aligned} LF=E[D(x,y)]−E[D(x′,y)]−λE[(∥∇x^D(x^,y)∥2−1)2], 这个 loss 也是 VAEGAN 有的。

这个是训练过程，在测试过程则根据测试样本对应的反事实样本集合和原来的seen样本训练分类器，根据可见类别预测前 K 个结果的均值，和不可见类别预测前 K 个结果的均值，进行域分类，这样似乎对于每个测试样本都要进行域分类，效率实在不高。
b ( x ) = { seen, if U K < S K unseen, otherwise b(\mathbf{x})=\left\{\begin{array}{ll} \text { seen, } & \text { if } U^{K}<S^{K} \\ \text { unseen, } & \text { otherwise } \end{array}\right. b(x)={ seen, unseen, if UK<SK otherwise
另外，由上面给定的损失能够实现 Counterfactual Faithful 的 generation ，是否有必要再单独设计这样的域分类策略？直接按照一般的方法根据生成的不可见类别样本和给定的可见类别样本训练一个分类器即可，域分类似乎多此一举。该问题也在官方介绍 https://zhuanlan.zhihu.com/p/365089242 中提及，还未回复。关于细节以及 OSR 的细节不再细致探讨。

总之，这个工作很有想法，从因果角度角度能发现一些其他问题，给出创新性的解决策略。但是文章偏向因果太重，可能是因为作者做因果推理出身，可读性不强，不易理解，虽然很严谨。如果从因果推理出发，似乎能帮助我们获得一些独特的视角来审视我们自己的任务，可能因而能获得更有趣的灵感，很值得了解。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Counterfactual Zero-Shot and Open-Set Visual Recognition (CVPR2021) 的相关文章

扬帆证券：产业化破题在即人形机器人超预期演进

大模型助力下的拐点特斯拉A股产业链上两笔重磅出资几乎一起现身总规划超百亿元 1月4日拓普集团公告与宁波经济技能开发区办理委员会签署了机器人电驱系统研发生产基地项目出资协议书公司拟出资50亿元建设机器人核心部件生产基地此次出
深度好文：最全的大模型 RAG 技术概览

本文是对检索增强生成 Retrieval Augmented Generation RAG 技术和算法的全面研究对各种方法进行了系统性的梳理涉及了 RAG 流程中的数据拆分向量化查询重写查询路由等等在做 RAG 的小伙伴一定知道
【EI复现】基于深度强化学习的微能源网能量管理与优化策略研究（Python代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 有无策略奖励 2 2 训练结果1
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
如何用GPT进行论文润色与改写？

详情点击链接如何用GPT GPT4进行论文润色与改写一OpenAI 1 最新大模型GPT 4 Turbo 2 最新发布的高级数据分析 AI画图图像识别文档API 3 GPT Store 4 从0到1创建自己的GPT应用 5 模型Ge
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
人工智能 AI 如何让我们的生活更加便利

每个人都可以从新技术中获益一想到工作或生活更为便利简捷且拥有更多空余时间谁会不为之高兴呢借助人工智能每天能够多一些空余时间或丰富自己的业余生活为培养日常兴趣爱好增添一点便利从电子阅读器到智能家居再到植物识别应用和智能室内花
AI帮助终结全球饥饿问题

全球饥饿问题是牵动人心的头等大事 5月28日是世界饥饿日这一问题更值得关注让人人都能吃饱的想法不仅令人向往而且很快就会变成现实与大多数新事物引进一样对于在控制世界粮食供应这样复杂的任务中AI究竟应该发挥多大的作用人们还踟蹰不前
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

武汉大学研究生组合导航课程合集【2022年春】

第四公式中kk是权重 zk hx 为innovation新息即真实的观测估计的观测前者包含观测误差 gps的电离层多径后者包含估计误差 kk近似1 则无限相信新观测 kk 0 相信估计
《Qt 6 C++开发指南》简介

我们编写的新书 Qt 6 C 开发指南在2月份终于正式发行销售了这本书是对2018年5月出版的 Qt 5 9 C 开发指南的重磅升级以下是本书前言的部分内容算是对 Qt 6 C 开发指南的一个简介 1 编写本书的目的 Qt 5
老是报此URL不支持Http方法GET和请求行中接收的方法由源服务器知道，但目标资源不支持。不是很理解，能帮忙解读一下吗

package com demo import javax servlet ServletException import javax servlet annotation WebServlet import javax servlet h
Rider连接Sql Server遇到的坑： “provider:SQL Network Interfaces,error:26-定位指定的服务器/实例时出错”的解决办法

创建一个博客小项目代码参见bilibili 任生风影这里就不贴了创建一个 net Framework的项目类库 BlogSystem Models 给solution取名为BlogSystem 给BlogSystem Models通过
《Flowable基础二 Flowable是什么》

2 1 Flowable是什么 Flowable是一个使用Java编写的轻量级业务流程引擎 Flowable流程引擎让你可以部署BPMN 2 0流程定义用于定义流程的行业XML标准创建这些流程定义的流程实例进行查询访问运行中或历史的
js中事件对象event

一 Event对象 Event 对象代表事件的状态比如事件在其中发生的元素键盘按键的状态鼠标的位置鼠标按钮的状态事件通常与函数结合使用函数不会在事件发生前被执行当一个事件发生的时候和当前这个对象发生的这个事件有关的一些详细信
JqGrid完整例子，学习linux的书籍

2 JavaScript function fn jqGridTypeDefine function options 获取jquery对象 var grid selector this var initDate oper height wi
Qt 使用emit 链接失败：error LNK2019: unresolved external symbol

编写一个类ChartView 发送信号signals 编译失败 1 gt chartview obj error LNK2019 unresolved external symbol public void cdecl ChartView
Android APP 自动更新实现(适用Android9.0)

Android App自动更新基本上是每个App都需具备的功能参考网上各种资料自己整理了下先来看看大致的界面一实现思路 1 发布Android App时都会生成output metadata json文件和对应的apk文件不知
爆肝整理，银行金融项目测试+常问面试题（附答案）

目录导读前言一 Python编程入门到精通二接口自动化项目实战三 Web自动化项目实战四 App自动化项目实战五一线大厂简历六测试开发DevOps体系七常用自动化测试工具八 JMeter性能测试九总结尾部小
CTF.show：萌新：web9

题目要求我们利用 system exec highlight才能执行ev
使用Chrony的Raspberry Pi

chrony是网络时间协议 NTP 的实现它替代了ntpd 后者是NTP 的参考实现与NTPsec不同 chrony是从零开始实现的它被设计为即使在诸如间歇性网络连接例如笔记本电脑和拥塞网络之类的困难条件下也可以同步时间与ntp
数据挖掘——无监督学习

一概述无监督学习算法让计算机自己学习没有属性或者标签有监督学习算法每个样本都已经被标明我们已经被告知了学习的答案无监督学习的典型算法是聚类算法和降维二聚类算法 1 概念聚类分析将数据对象分组成为多个蔟同一簇中的对象
[VMware]解决"已将该虚拟机配置为使用 64 位客户机操作系统。但是，无法执行 64 位操作"的问题

创建好空的虚拟机后使用ISO镜像文件后重启进行安装系统出现下图问题原因是BIOS未开启虚拟化技术之前个人用的电脑是默认开启了现在换到公司联想的电脑上安装虚拟机发现了这个问题解决方式虚拟化技术目前主要依赖于电脑的CPU型号及BI
wireshark 本地连接无数据抓不到网卡解决方法

问题描述环境 win7 wireshark 3 4 6 不知道我之前做了啥突然wireshark抓不到数据了过滤的网卡选择哪个接口都不行捕获选项如下图做过以下尝试都不行在cmd中打开抓包服务 net start npf 软件卸载
arm64-v8a编译

环境 Ubuntu64和android ndk r11c 其他不支持arm64 v8a架构重点依赖库要使用android ndk r11c编译成arm64 v8a 其中ffmpeg最复杂编译方法如下 1 ffmpeg编译目录建立创
线程池源码（一）

一 ThreadPoolExecutor执行流程二 ThreadPoolExecutor状态线程池中核心属性 ctl ctl本质就是一个int类型的数值 private final AtomicInteger ctl new Atomi
【Python VTK】读取二维序列医学图像分割结果并进行三维重建

一问题描述最近在开发过程中遇到了这样的问题在医学图像开发过程中我们将医学图像通过深度学习算法进行分割现在想要通过这一套二维图像进行三维重构以下是分割结果图一前列腺核磁图像分割结果图一前列腺核磁图像分割结果图一前列腺核
73-C语言-计算闹钟的时间

问题已知现在的小时和分钟即几点几分并想要睡觉的时间单位为min 求闹钟应在几点响思路先输入现在准备睡觉的几点几分以及睡觉的总时长在看问题最后求的是什么是到时候闹钟几点响而闹钟的设置先看范围小时不能超过24小时分钟
Counterfactual Zero-Shot and Open-Set Visual Recognition (CVPR2021)

这是南洋理工张含望老师组的作品这篇文章从因果推理出发来根据反事实推断设计模型出发点非常的新颖但不容易懂因果推理理论是一个非常不错的帮助人换角度看问题的理论工具多多学习文章全名叫 Counterfactual Zero Shot

Counterfactual Zero-Shot and Open-Set Visual Recognition (CVPR2021)

Counterfactual Zero-Shot and Open-Set Visual Recognition (CVPR2021) 的相关文章

随机推荐

热门标签