【读论文04】CVPR2022选读

2023-05-16

【2203.14506】Catching Both Gray and Black Swans: Open-set Supervised Anomaly Detection

在这里插入图片描述
关键点:

  1. DRA(disentangled representations of abnormalities)
  2. 使用异常样本训练检测模型
  3. 在目标检测时,将模型已见过的缺陷定义为“灰天鹅”,未见过的缺陷定义为“黑天鹅”。
  4. 一个新的通过所见异常、伪异常和潜在的残余异常的异常表现(abnormalities illustrated)的disentangled 表征学习,其中后两种异常用于检测未见过的异常。
  5. 本文认为相比于其它的无监督模型(全部采用无缺陷的样本),现实中提供极少数的异常样本是可能的
  6. 少数的缺陷样本提供了关于特定应用中异常的有价值知识,而这是那些无监督模型无法利用的
  7. 现有的利用少数异常样本的模型,存在在已见的缺陷上性能提升大(性能优于无监督模型),而在未见上的性能表现一般(性能差于无监督模型)
  8. 本文将异常分为三个大类:
    • 与已见的异常相似的
    • 与数据增强或外部数据相似的伪异常
    • 在潜在的基于残差的复合特征空间中的可检测到的未见的异常
  9. 设计了一个多头网络,不同的头分别用于学习这三种不同的异常。模型给出异常分,目标是给已见和未见赋予高于正常样本的异常分
    • 利用top-K的基于多样本学习(MIL)方法来有效的学习已见异常
    • 对于非医疗数据集利用CutMix方法从正常图像生成伪异常图像,针对医疗数据集采用(the outlier exposure method)生成伪异常图像
    • 未见的异常在高阶复合特征空间很容易被检测
      • 利用异常和正常特征之间的特征差异来学习判别复合特征
      • 潜在残差异常学习方法:根据样本的特征残差与一些参考图像(正常图像)的特征在一个学习过的特征空间中进行比较学习样本的异常分数。
    • 训练阶段:4个头单独训练,因此参数独立优化。采用deviation loss作为损失函数
    • 推理阶段:给定一个测试图,求和所有异常学习头的分数,再减去正常头(normality score)的分数,最终得到异常分
  10. DRA利用ResNet-18作为特征学习骨干网络

【2203.03962】Generative Cooperative Learning for Unsupervised Video Anomaly Detection

在这里插入图片描述
关键点:

  1. 视频无监督缺陷检测的问题:在缺乏ground-truth的情况下,可能会对学习算法的表现产生不利影响
  2. 本文提出unsupervised Generative Cooperative Learning (GCL),通过构建生成器G与判别器D之间的交叉监督(cross supervision)
  3. 缺陷被认为是与正常数据的明显偏差
    • OCC(one class classification)的问题在于无法捕捉到所有正常的变化
    • 相比于静态的图像,视频具有丰富的信息。相比于正常情况,异常发生是很低频的,本文尝试以结构化的方式利用这些先验知识。
  4. 本文中
    • 生成器G不仅重新构造了大量可用的正常表示,而且还通过使用新的消极学习(negative learning NL)方法来扭曲可能的高信心的异常表示。
      • G由AE组成,使用AE的直觉是这样的模型可以在一定程度上捕捉到总体主导的数据趋势
      • D由全连接层组成,原因是抗噪声能力强
    • 判别器D用于估计一个实例是异常的概率。
    • 从G创建伪标签用于训练D,接着,用被训练的D创建伪标签用于改进G,如此往复。目的是在训练迭代过程中改进D和G生成的伪标签,从而提高整体的异常检测性能。
  5. 由于异常检测是一个不确定的问题,缺乏约束可能会对训练的收敛产生不利影响,训练时可能会被困在“局部最小值”中。本文通过预训练G和D解决此问题。
  6. 本文采用D的输出作为异常分。

【2203.00867】Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding

在这里插入图片描述
关键点:

  1. 现有的问题:
    • 受限于CNN的有限的接受阈,丧失了对整体结构的考虑,只能处理普通的纹理
    • 基于注意力的模型,受限于对于大尺寸图像昂贵的计算代价
    • 在掩码区域缺少位置信息
  2. 本文提出增加一个额外的结构恢复器(structure restorer)来促进图像的增量。该模型在一个固定的低分辨率草图空间中,重新存储了整体图像结构,并具有一种强大的注意力集中的transformer模型。这样的灰度空间很容易被提高到更大的尺度,以传达正确的结构信息。
  3. 一种掩蔽位置编码策略被用于大型不规则掩模,用以提高性能。
  4. 本文:着重于增加整体结构信息和位置信息
    • 利用基于transformer的模型采用以边和线作为草图张量空间来处理整体结构
      • 使用简单的CNN可以实现将归一化的灰度空间无损上采样到更高分辨率
    • 新的增量训练策略Zero-initialized Residual Addition (ZeroRA),用以将结构信息融合到预训练的图像修复(inpainting)模型
  5. 一种基于ZeroRA的增量transformer结构(ZITS)嵌入框架,采用掩蔽位置编码(MPE)进行增强。
    • Masking Positional Encoding (MPE)
    • Transformer Structure Restorer (TSR)
    • Fourier CNN Texture Restoration (FTR)
    • Structure Feature Encoder (SFE)
  6. 损失函数
    • L1 loss
    • adversarial loss
    • feature match loss
    • high receptive field (HRF) perceptual loss

【2111.09099】Self-Supervised Predictive Convolutional Attentive Block for Anomaly Detection

在这里插入图片描述
关键点:

  1. 本文提出将基于重建的功能集成到一个新的自监督预测架构的构建块中
    • self-supervised predictive convolutional attentive block (SSPCAB)
    • 块从一个带有放大滤波器的卷积层开始,接收区域的中心被掩盖。生成的激活映射通过一个通道注意力模块传递。
    • 块配备了一个损失,使相对于接收域的掩码区域的重构损失最小化。
  2. 将重建任务嵌入核心架构层面有两个重要的优势:
    • 允许在任何层遮盖信息(而不仅仅在输入时)
    • 可以被集成到广泛使用的各种神经网络,非常通用
  3. Dilation rate:根据特定应用的需要,控制上下文级别(从本地到全局)的一种方式
  4. CNN的问题:虽然CNN的特征层次结构非常强大,但CNN缺乏理解这些局部特征的全局排列的能力
  5. 当SSPCAB集成到更靠近输出的地方时,改进似乎更大。集成更多块有时会有所帮助。
  6. 增大masked kernel M的尺寸没有带来显著的差异

【2111.09886】SimMIM: A Simple Framework for Masked Image Modeling

在这里插入图片描述
关键点:

  1. 对表示学习性能具有较大影响的做法:
    • 对具有较大掩蔽块大小的输入图像进行随机掩蔽(如 32)生成强前文本任务
    • 预测的原始像素直接回归的RGB值表现并不比复杂设计的patch分类方法差
    • 预测头可以像线性层一样轻,但性能并不比较重的预测头差
  2. 方法
    • 掩码策略
      • Patch-aligned random masking
      • 对于Swin Transformer 对于不同的阶段采用不同size(4×4~32×32)的patch
      • 对于ViT,patch默认采用32x32的size
    • 编码器结构
      • vanilla ViT
      • Swin Transformer
    • 预测头
      • 证明采用及其轻量的预测头(如线性层)效果很好
    • 预测目标
      • 将每个特征向量投射回原始尺寸
      • 默认采用L1-loss
  3. 实验
    • 采用Swin-B作为默认的骨干网络,图像为192x192,窗口大小为6,ImageNet-1K作为预训练和微调的数据集
    • AdamW优化器
    • 简单的数据增强
      • 随机调整大小进行裁剪,比例范围[0.67,1],宽高比范围为[3/4,3/4]
      • 随机翻转和颜色归一化
    • 随机掩膜策略、patch-size:32x32、mask_ratio:0.6
    • 掩膜策略:大的patch-size(32)在较为宽泛的掩膜比例范围内性能稳定,认为是中心像素距离可见像素距离很远,逼迫网络学习图像长范围的联系;但当增大至64时性能下降,认为可能时距离过长;AvgDist指标能很好的体现
    • 通用的厚的预测头会产生稍低的损失,但在下游任务上的表现会更差,表明重绘的能力更强,不代表在下游任务上更好的性能,原因可能是其强大的表示能力用于下游任务可能是多余的。
    • 在被遮蔽的区域上计算掩膜损失性能更好
      过长;AvgDist指标能很好的体现
    • 通用的厚的预测头会产生稍低的损失,但在下游任务上的表现会更差,表明重绘的能力更强,不代表在下游任务上更好的性能,原因可能是其强大的表示能力用于下游任务可能是多余的。
    • 在被遮蔽的区域上计算掩膜损失性能更好
    • 掩膜图像建模的目标不需要对齐为同一分类
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【读论文04】CVPR2022选读 的相关文章

  • Ubuntu Linux中使用快捷键截图

    在WIN中 xff0c 习惯了用QQ的CTRL ALT A来截取指定区域的截屏了 xff0c 确实方便好用 xff0c 不过在UBUNTU中 xff0c 可以使用gnome screenshot 来完成类似的功能 当然 xff0c 截屏编辑
  • ubuntu14.04 + dlib19.2+【 C++ 】+Face Landmark Detection

    1 安装dlib dlib官网这里好像只有最新的dlib版本包 xff0c 下载选项在左下角有个蓝色的按钮 xff0c 写着download 博主用的还是目前最新的版本19 2 xff0c 因为最新的dlib版本添加了一些新的人脸检测器 x
  • Ubuntu如何测试安装包是否安装成功

    举个例子 xff0c 比如 xff1a 测试python的dlib库是否安装成功 在终端下输入 xff1a span class hljs keyword python span 出现了python版本信息 xff0c 说明已安装pytho
  • Ubuntu下有关显存的命令

    查看NVIDIA实时显存指令 在跑深度学习的时候 xff0c 经常出现显存不足的情况 xff0c 所以我们希望能够随时查看GPU时使用率 如果你是NVIDIA的GPU xff0c 那么在命令行下 xff0c 只需要一行命令就可以实现 1 显
  • 剑指offer刷题记录

    xff03 面试题 xff19 xff1a 用两个栈实现队列 用两个栈来实现一个队列 xff0c 完成队列的Push和Pop操作 队列中的元素为int类型 算法思想 xff1a 一个队列用两个栈进行操作 xff0c 队列是先进先出 xff0
  • Deconvolutional Network [deconv] 研究

    前言 deconv的用处还挺广的 xff0c 涉及到 visualization pixel wiseprediction unsupervised learning 都会用到deconv的结构 比如Deconvolutional Netw
  • 实力认证!百度超级链BaaS平台通过深圳国家金融科技测评中心权威技术测评

    近日 xff0c 百度超级链BaaS平台顺利通过深圳国家金融科技测评中心 xff08 以下简称 NFEC xff09 技术测评 xff0c 并获得由NFEC出具的测评报告 xff0c 百度超级链在金融相关领域的技术实力再次获得权威认可 NF
  • GAN系列

    paper GAN开山之作 xff1a Generative Adversarial Networks GAN翻译
  • [Android] VasSonic H5加载优化加载库 源码解读及需要注意的地方

    1 VasSonic是什么 xff1f 一句话总结 xff1a 优化webview对h5的加载速度 wiki原话 xff1a VasSonic取名于世嘉游戏形象音速小子 xff0c 是腾讯VAS SNG增值产品部QQ会员 团队研发的一个轻量
  • eve-ng 2.0.3-112懒人版安装、GNS3 2.2.32安装包、思科ASA8.42 9.42 路由器C3600 C7200、IOU镜像、思科IPS入侵防御系统

    Yo what s up guys 包含所有该用到的软件 xff0c 都给你们直接总结好了 eve span class token operator span ng span class token number 2 0 span spa
  • ucos ii学习笔记3 消息队列、信号量集

    这一篇可以说是上一篇的升级版 xff0c 消息队列是邮箱的升级版 xff0c 邮箱只能传递一个数据 xff0c 消息队列可以传递多个数据 信号量集则是多个二值信号量的集合 消息队列由3个部分组成 xff1a 事件控制块 消息队列和消息 当把
  • Redis常用命令-史上最全最新版本(一)

    Redis常用命令 史上最全最新版本 xff08 一 xff09 一 Redis基础命令二 Redis操作key的一些命令三 Redis五大基本数据类型1 String xff08 字符串 xff09 类型2 List xff08 列表 x
  • js删除对象中的元素

    if e data let result 61 JSON parse e data this form 61 result item 删除对象中的create time xff0c update time元素 delete this for
  • FreeRTOS 任务调度 任务切换

    64 嵌入式 简述启动调度器 移植层调度器启动第一个任务 任务切换参考 FreeRtos 简述 前面文章 lt FreeRTOS 任务调度 任务创建 gt 介绍了 FreeRTOS 中如何创建任务以及其具体实现 一般来说 xff0c 我们会
  • FreeRTOS 信号量

    64 嵌入式 简述二进制信号量 二进制信号量使用二进制信号量实现 创建信号量获取信号量释放信号量 中断中释放任务中释放 计数信号量互斥锁 创建互斥信号量拿锁放锁 递归互斥锁 获取递归信号量释放递归信号量 参考 FreeRtos 简述 Fre

随机推荐

  • 【转存】SpringBoot 中的自带工具类,快速提升开发效率

    断言 断言是一个逻辑判断 xff0c 用于检查不应该发生的情况 Assert 关键字在 JDK1 4 中引入 xff0c 可通过 JVM 参数 enableassertions开启 SpringBoot 中提供了 Assert 断言工具类
  • Mybatis-plus BindingException问题

    原因 xff1a 找不到 mapper xml 问题 解决方法 xff1a 去掉引用 mybatis plus lt dependency gt lt groupId gt com baomidou lt groupId gt lt art
  • 年度成果发布 | 百度超级链精选案例集正式上线!

    关注百度超级链微信公众号回复 案例集 获得电子版精选案例集 近年 xff0c 随着数字经济的发展 xff0c 区块链作为新基建的潜力逐渐被挖掘 xff0c 极大地发挥出其公开透明 高效便捷 互联互通的优势 xff0c 正在逐步提升社会信息交
  • Linux之Ubuntu入门篇[笔记自用]

    CMD 一 linux常用命令 lscd 点表示当前目录 点点当前目录的上一级目录 当前用户目录 放回上一次目录 pwduname 用于显示系统信息clear 清屏catsudo 以管理员运行cp 文件拷贝su 切换用户 sudo su x
  • Mysql 主从同步状态检查

    show slave status G 参数详解 1 Slave IO State SHOW PROCESSLIST输出的State字段的拷贝 Master User 被用于连接主服务器的当前用户 Master Port 当前的主服务器接口
  • maven打包报错 Expected root element project but found html

    Expected root element 39 project 39 but found 39 html 39 XXX spring boot parent 2 1 6 RELEASE pom 原因是POM文件错误 看下仓库中具体报错的p
  • BGP、OSPF、MPLS路由协议RFC分享

    文章目录 1 概述1 1 BGP1 2 OSPF1 3 MPLS 2 分享2 1 rfc 42712 2 rfc 31072 3 rfc 43642 4 rfc 44562 5 rfc 45772 6 rfc 47242 7 rfc 476
  • 单片机底层硬件与应用程序的联系

    1 单片机使用下载的固件库 xff0c 即底层驱动程序 2 功能配置寄存器是直接与硬件相互联系的 xff0c 例如汇编语言便可直接操纵功能配置寄存器
  • ROS中TF变换详解

    ROS发布TF变换 提示 xff1a 在ROS中发布TF变换时 xff0c 所使用的的角度为弧度而不是度 本文可以验证 xff0c 有错误欢迎各位评论指出 文章目录 ROS发布TF变换 前言1 Python实现TF发布2 C 43 43 实
  • 小狼毫输入法皮肤配置【自带皮肤配置】

    小狼毫输入法皮肤 小狼毫自带皮肤预览图小狼毫皮肤配置注释小狼毫自带的皮肤和配置 取自小狼毫程序文件夹 小狼毫自带皮肤预览图 安装位置 Rime weasel 0 14 3 data preview 小狼毫皮肤配置注释 span class
  • 119. Pascal's Triangle II

    Given a non negative index k where k 33 return the kth index row of the Pascal 39 s triangle Note that the row index sta
  • 【新手把新手,易学】esp8266指令进行测试

    Csdn的写博客的工具简直太难受了 xff0c 写在了world里边复制粘贴不过来 xff0c 图片不显示 xff0c 格式全丢失 xff0c 把测试分块发出来把 我也是新手按照新手帖子一步步实验的 xff0c 并做了一些补充 STA 类似
  • 百度超级链2021年终盘点:深度赋能数字经济,促进产业融通发展

    区块链是具有巨大潜力的战略技术 2021年 xff0c 国家 十四五 发展规划纲要将区块链列入七大数字经济重点产业之一 工信部 中央网信办联合印发推动区块链技术应用和产业发展的指导意见 xff0c 推动区块链技术加速落地 百度超级链秉承 让
  • 访问 www.taobao.com过程

    首先是查找浏览器缓存 xff0c 浏览器会保存一段时间你之前访问过的一些网址的DNS信息 xff0c 不同浏览器保存的时常不等 如果没有找到对应的记录 xff0c 这个时候浏览器会尝试调用系统缓存 来继续查找这个网址的对应DNS信息 如果还
  • PyTorch安装通用教程——附安装包

    安装PyTorch 通用教程 由于最近做项目需要使用PyTorch xff0c 所以便准备在网上查找相关教程和下载安装包 但由于官网提供的下载方式下载慢 xff08 至少我是如此 xff09 xff0c 以及在网上寻找百度云资源无果 由于曾
  • 树莓派4B 安装系统 实现WIFI联网 设置静态IP(无键鼠和显示器)

    本文结构 没有连接显示屏 键盘 鼠标 前期准备下载系统镜像并解压至存储卡实现利用网线访问树莓派系统连接WIFI设置静态IP 前期准备 文章比较长 xff0c 因为比较全面 树莓派4B网线一根已连接无线网的笔记本电脑存储卡 xff08 不低于
  • 【树莓派】作为服务器,实现外网访问

    我的个人博客目前由树莓派提供服务 本文首发于我的个人博客 xff1a xiebin tech 内容重点参考自 科技爱好者博客 前期准备 如果你只有一块新买的树莓派 xff0c 可以看树莓派4B 安装系统 实现WIFI联网 设置静态IP先安装
  • 【2021年8月】解决 rosdep update超时问题

    修改两个文件即可快速解决超时问题 1 修改 etc ros rosdep sources list d 20 default list 执行sudo gedit etc ros rosdep sources list d 20 defaul
  • 【深度学习】DNN Regression 代码实现与详解

    相关说明 数据集分成两个文件 xff0c train和test 训练时 xff0c 将train分为训练集和验证集 xff0c 用于训练模型以及判断模型训练的好坏 test数据集用于最终测试模型的通用性 xff0c 即所训练出来的模型是否
  • 【读论文04】CVPR2022选读

    2203 14506 Catching Both Gray and Black Swans Open set Supervised Anomaly Detection 关键点 xff1a DRA disentangled represent