CAM,PradCAM,layer CAM(可解释性分析方法)

2023-11-06

目录

1.CAM

1.1作用

1.2应用实例

1.3CAM的特点

1.4CAM的思路

1.5CAM的缺点

2.GradCAM

2.1和GAM的区别及思路

2.2应用面

2.3一个延深(解决模型偏见)

2.4缺点

3.Grad CAM++

4.Score CAM

5.layer CAM

参考文献


导读

尽管CAM在计算机视觉领域起到了解释性的作用,但同时也要注意到,CAM只能关注模型得到结果依据的特征是什么,它依然不能从根本上解释神经网络在做什么。真正意义上的可解释性分析,应该有一个通用模型,而不是一个计算模型,一个解释模型,因为这两个模型还是不同的,这样的解释模型也无法百分之百保证对计算模型的解释是正确的。

1.CAM

1.1作用

CAM不不光可以分类还可以定位:从下图理解,识别palace时热力图定位了模型认为它是palace的特征,同样对dome等识别时也用热力图定位了相应特征,也就是定位了palace和dome的位置。

1.2应用实例

从热力图可以看出,识别福建土楼依据的特征是洞状结构,识别吊脚楼依据的是棍状结构,识别故宫依据的是沿状结构

1.3CAM的特点

      1.实现了深度学习的可解释性分析

      2.可拓展性强,后续研发出一系列基于CAM的算法

      3.在每张图片,每个类别都能生成CAM热力图

      4.若监督模型:用图像分类模型解决定位问题

      5.潜在的注意力机制:比方说,识别不同的鸟时(属于细粒度分类) ,人类可以根据模型识别鸟的不同种类所依据的特征的热力图,去理解和学习如何对鸟进行分类,这也属于用人工智能理解世界的方式,带人类去认识这个世界。

      6.使得Machine Teaching成为可能:就是,现在模型不仅可以人类一个问题的答案,还可以给出解决这个问题的思路,这不就可以实现真曾意义上的利用人工智能学习嘛

1.4CAM的思路

如下图所示,正常来说对于图像分类问题,最后一层卷积层之后通常链接全连接层,但这里用GAP(全局平均池化)替代了全连接层,具体操作为,假设最后一层为14×14×512,可以理解为该层有512个特征图然后对每个特征图进行平均池化操作,我们得到每一个特征图对应的值(标量,每一个值代表了原来的特征图),最终得到512个值,再乘以512个w(权重)得到每一个类别的得分,再进行softmax操作,得到对应的概率值。这个方法的特点就在于GAP的w值,对某个类别评分越高,说明这512个特征图某一部分占的比重越大,w也就越大,然后这些特征图还包含位置信息,如第Class Activation Mapping下的图所示,w1*(14×14的特征图)+w2*(14×14的特征图)+......w512*(14×14的特征图)中,我们看到w1对应特征图原图中的位置,w2对应特征图原图中的位置,w3对应特征图原图中的位置,从结果看我们得到的类别是狗,w1对应的特征图和狗毫无关系,所以输出时比重很低,在最终的识别图根本看不到这个特征图,而w2和w3对应的特征图包含狗,我们会发现,最终的识别图中有这两张特征图的身影。

注意到没有池化层:因为池化层会丢失长宽信息,这是CAM无法接受的

1.5CAM的缺点

      1.必须要有GAP层,否则无法得到热力图,基于此有了gradCAM

      2.只能分析最后一层卷积输出,无法分析中间层的特征图

      3.仅限图像分类任务

2.GradCAM

2.1和GAM的区别及思路

区别:在CAM中用GAP替代了全连接层,在GradCAM中,保留了全连接层

思路:如下图所示,简单理解全连接层对类别打分之后,再对其求导重新得到输入全连接层之前的卷积层,14×14×512(这个和原来不完全一样,这里面是梯度值,但能表示卷积层原来的特征图),再进行GAP操作。

优势:对CAM,当我们只想进行图像分类任务时,我们只用一个分类模型就行了,但如果我们想进行性可解释性分析,就需要将全连接层改为GAP重新训练。对GradCAM,当我们想进行可解释性分析时,直接载原模型上加入GAP就可以使用了。

2.2应用面

这样就导致GradCAM应用面很广,只要最后一层结果可导,不管是用什么忘了,RNN还是LSTM,不管是图像还是文本任务等,都可以用其解决。在强化学习中,比方说玩超级马里奥,我们就可以知道,模型执行上下左右的某一个操作,是基于什么,是为了金币,躲避伤害还是其他什么原因

 在文字描述生成任务中:就是说根据一张图生成文字描述,如下图所示,使用GradCAM,不仅可以生成文字,还有生成该文字所依赖的特征。

2.3一个延深(解决模型偏见)

做一个可视化分析的延深,可以用于纠正模型偏见:比方说我们通常会认为医生男性多,护士女性多,那么在建立数据集时,我们可能会在图片中,医生男性占比较多,护士女性占比较多,这就可能导致,模型基于男女分别医生还是护士,但这显然是不对的,在黑箱模型中,知道模型有问题,但可能很难找出问题在哪,需要做大量的实验尝试,有了可视化分析,就可以直接找出问题所在,改进模型。

2.4缺点

      1.图像上有多个同类物体时,只能画出一块热力图,比方说图中有三值猫,但只能画出一只猫,

      2.不同位置的梯度,GAP平局之后,影响相同,但一般来讲图片边缘的影响应该小于图像中心。

      3.梯度饱和、梯度消失、梯度噪声

      4.权重大的channel,不一定对类别预测分数贡献大

      5.只考虑从后往前的反向传播梯度,没考虑前向预测的影响

      6.深层生成的粗粒度热力图和浅层生成的细粒度热力图都不够精确

      7.CAM中只能分析最后一层,GradCAM可以分析中间层,但发现在浅层中,分析效果很差,基于这个有了layer CAM

3.Grad CAM++

解决Grad CAM两个问题

      1.图像上有多个同类物体时,只能画出一块热力图,比方说图中有三值猫,但只能画出一只猫,

      2.不同位置的梯度,GAP平局之后,影响相同,但一般来讲图片边缘的影响应该小于图像中心。

对于第一个问题简单理解:从下图看假设intput image输入的图片包含三个猫(分别对应灰色区域),经过卷积之后,这三个区域分别出现在不同的特征图之中,经过Grad CAM处理之后只能激活其中一个猫的特征图,在Grad CAM++中, 可以同时激活三个猫的特征图。

对于第二个问题简单理解:就是对梯度加了权重,来区别不同位置梯度的影响。

4.Score CAM

解决Grad CAM三个问题

      3.梯度饱和、梯度消失、梯度噪声

      4.权重大的channel,不一定对类别预测分数贡献大

      5.只考虑从后往前的反向传播梯度,没考虑前向预测的影响

做个对比:如下图所示,明显Score CAM热力图对应的位置更加聚焦。

思路

 首先用Phase1(第一个网络),经过Upsampling之后得到14×14×256个特征图,将这些特征图和原图input的小狗分别相乘我们会得到,将每个特征图在原图中对应的位置高亮显示,进一步得到每一个特征图对应他权重,最后Phase2输出这些权重和Phase1中对应的每一个特征图相乘得到Score CAM的结果。

5.layer CAM

解决Grad CAM2个问题

      6.深层生成的粗粒度热力图和浅层生成的细粒度热力图都不够精确

      7.CAM中只能分析最后一层,GradCAM可以分析中间层,但发现在浅层中,分析效果很差,基于这个有了layer CAM

应用:工业检测很合适。

做个对比:如下图左所示,第一行为Grad CAM的特征结果,第二行为layer CAM的特征结果,很明显Grad CAM噪声过多。如下图右所示,即使在浅层中也能聚焦较好的特征。

 补充

参考文献

1.类别激活热力图可视化工具介绍

2.【机器学习】请停止做“有可解释性”机器学习(中英文字幕)_哔哩哔哩_bilibili 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

CAM,PradCAM,layer CAM(可解释性分析方法) 的相关文章

随机推荐

  • win终端好用助手——MOBAXterm和Xshell

    目录 0 前言 1 资源 2 区别 2 1MobaXterm 2 1 1ssh 2 1 2串口 2 1 3 tftp服务 2 2Xshell 2 2 1 ssh 3 总结 0 前言 总是推荐歌 大部分都是网易的 不乏一些VIP歌曲 今天分享
  • windows安装rocketmq

    windows安装rocketmq 问题背景 操作步骤 Lyric 请再给我 一个理由 问题背景 最近有使用rocketmq 为测试方便 在本地安装rocketmq 注意事项 默认已安装java1 8 启动mq必须是1 8版本 我之前使用1
  • 解决 fatal: unable to access ‘https://github.com/.../.git‘: Could not resolve host: github.com

    git config global unset http proxy git config global unset https proxy 解决办法 禁用http代理 因为github被GFW墙了 但是这样做没加密不安全
  • CentOS7.4部署ELK日志分析系统

    官网地址 https www elastic co cn 官网权威指南 https www elastic co guide cn elasticsearch guide current index html 安装指南 https www
  • 关于android中图片裁剪以及PorterDuffXfermode的使用经验小结

    1 关于图片 裁剪 出现锯齿的问题 使用canvas的clipXxx函数 可以获取只显露出某一区域的图形 但是有锯齿 即使paint使用了setAntiAlias true 函数依然无法消除锯齿问题 解决方案 使用shader方案 即 pa
  • 激光散斑成像

    激光散斑成像系统原理 当激光照射在足够粗糙 表面的高度变化大于激光的波长 的组织表面 组织表面的散射粒子会使入射光发生背向散射 由于不同散射光到达相机成像面的光程差不同 不同散射光之间会在像面上形成随机干涉现象 在空间分布上表现为明暗变化的
  • linux下查看进程的线程运行情况

    1 首先查看进程的PID 2 查看所在 进程的线程运行情况 top H p 5066
  • vue2 vue-amap plugin ControlBar插件使用和高德3D效果

    网络上有不少vue amap的插件使用教程 我看了许多都没有适用的 要高德3D效果必须用到ControlBar插件 核心是viewMode的开启和ControlBar插件的配置 以下是我试出来的使用方法 在main js中配置全局vue a
  • 基于89C51单片机的智能小车——06.测速小车

    测速模块 用途 广泛用于电机转速检测 脉冲计数 位置限位等 接线 VCC 接电源正极3 3 5V GND 接电源负极 DO TTL开关信号输出 AO 此模块不起作用 测试原理和单位换算 轮子走一圈 经过一个周长 C 2x3 14x半径 3
  • 5. 数学导论 - 图论(图的概念)

    文章目录 图论 Hi 大家好 我是茶桁 今天这节课呢 内容非常的少 少到你可能会认为我偷懒了 还真不是 因为就目前基础来说 图论这一节尚且没有太多可讲的东西 重点是带大家混个脸熟 那么多高强度内容之后 就当给自己放个假吧 图论 前面说过 这
  • 19.学习Camera之——相机驱动层–V4L2框架解析

    相机驱动层 V4L2框架解析 一 概览 相机驱动层位于HAL Moudle与硬件层之间 借助linux内核驱动框架 以文件节点的方式暴露接口给 用户空间 让HAL Module通过标准的文件访问接口 从而能够将请求顺利地下发到内核中 而在内
  • hdu 1827(tarjan)

    先用tarjan缩点 然后入度为0的点就是必须要选择点同时也是最小的情况 Summer Holiday Time Limit 10000 1000 MS Java Others Memory Limit 32768 32768 K Java
  • flowable 多数据源

    目录 前言 一 多数据源 二 测试 1 测试接口 1 不带事务 2 加上事务 三 解决方法 1 开启新事物 2 重写事务 总结 前言 在springboot中使用flowable 此时flowable默认使用spring中的数据源 我这里f
  • ERP常用词汇中英文对照

    ERP常用词汇中英文对照 2007年10月24日 星期三 15 23 A gt gt ABC Classification ABC分类法 对于库存的所有物料 按照全年货币价值从大到小排序 然后划分为三大类 分别称为A类 B类和C类 A类物料
  • Fastjson 全局日期序列化设置导致 JSONField 无效(Java)

    Fastjson 全局日期序列化设置导致 JSONField 无效 Java 在 Java 开发中 Fastjson 是一个流行的 JSON 处理库 它提供了强大的功能和灵活性 其中一个常见的需求是将 Java 对象序列化为 JSON 字符
  • linux文件时间戳(atime, mtime, ctime)

    简介 在linux系统创建一个文件后 使用stat lt 文件名 gt 命令行查看文件状态 总是能看到 3 个时间戳 如下图所示 从上图可以看到 touch命令创建文件abc后 使用 stat abc命令行查看abc文件的状态 显示了3个时
  • 常用命令行指令

    文章目录 1 快速重命名多份文件 2 将mkv文件转为MP4 3 cd命令 4 pip常用命令 5 常用命令大全 1 快速重命名多份文件 在想要修改的文件夹下方 按住shift键 右击鼠标 打开PowerShell ls mp4 mv De
  • 由于找不到MSVCR120.dll,无法继续执行代码,重新安装程序可能会解决此问题。

    今天安装mysql的时候遇到了一个bug 如下图所示 这是因为没有安装如下软件导致的 点击如下链接 下载vcredist 下载 vcredist 地址 https www microsoft com zh CN download detai
  • NS3初探

    NS3初探 文章目录 NS3初探 一 简介 二 NS3重要概念 1 节点 Node类 2 信道 Channel类 3 网络设备 NetDevice类 4 应用程序 Application类 5 拓扑帮助 topology helper 6
  • CAM,PradCAM,layer CAM(可解释性分析方法)

    目录 1 CAM 1 1作用 1 2应用实例 1 3CAM的特点 1 4CAM的思路 1 5CAM的缺点 2 GradCAM 2 1和GAM的区别及思路 2 2应用面 2 3一个延深 解决模型偏见 2 4缺点 3 Grad CAM 4 Sc