图像质量评估——论文精读系列

2023-11-15

Madhusudana P C, Birkbeck N, Wang Y, et al. Image quality assessment using contrastive learning[J]. IEEE Transactions on Image Processing, 2022.

(本篇博客中出现的图片大部分来源于原论文)


[toc]

文章结构

  • ABSTRACT
  • I. INTRODUCTION
  • II. RELATED WORK
    • NR-IQA Models
    • Self-Supervised Learning

  • III. METHOD
    • A. Auxiliary Task

    • Multi-scale Learning and Cropping

    • Quality Preserving Transformations/Augmentations

    • Realistic Distortions

    • Patch Features

    • Evaluating Representations

  • IV. EXPERIMENTS AND RESULTS

    • Experimental Settings

    • Correlation Against Human Judgments

    • Cross Dataset Evaluation

    • Visual Comparison of Representations

    • Significance of Training Data

    • Robustness to Training Data

    • Importance of Different Color Spaces

    • Significance of Multi-scale Learning

    • Effect of Batch Size and Crop Size

    • Limitations of the Model

  • V. CONTRIQUE FULL-REFERENCE MODEL

  • VI. CONCLUSION


[]

Abstract

想用自监督来做质量评估任务

  1. CNN : 用成对的图像来对比学习,完成辅助任务——预测失真类型和失真等级
  2. 提出方法: CONTRastive Image QUality Evaluator (CONTRIQUE)

I. INTRODUCTION

  1. 介绍图像质量评估是做什么的;介绍NR IQA是做什么的,所面临的挑战(受多因素的影响、受图像内容的影响);NR IQA研究的必要性,应用场景。
  2. NR IQA 技术发展的历程:合成失真的数据集的生成及其缺点,真实失真数据集的生成及其特点。针对这些数据集,NR IQA模型所要针对解决的点。

  3. 建立NR-IQA模型主要依赖于参数化和学习方法。介绍了几种类型的NR-IQA 模型,包括 基于NSS的模型:通过统计获取特征用于质量预测;其优点是对于合成失真较为有效,但对于未知失真的图像质量预测效果表现受限; 基于CNN的模型:数据驱动的IQA 模型。

  4. 基于CNN的模型最大的限制:缺少带标签的大数据集,而建造数据集是一个很耗资源的活动。但是已经存在的数据集又太小,不能很好的训练CNN网络模型。因此大部分CNN网络针对以上问题的解决方案是:迁移学习(pretrained & fine-tuned), 缺点:针对不同的数据集,要做不同的超参数的微调。此外,过度微调容易产生过拟合,使得模型泛化性能下降。

  5. 我们打算使用没有标签的数据集来做 IQA,灵感来自于用于图像分类问题的无监督/自监督学习方法。

创新点:

  1. 失真类型、失真等级的预测作为辅助任务(CNN的训练在同时包含合成失真和真实失真的无标签的数据集上做,使用对比目标函数)

  2. 为了学习较强的表征信息,在训练中,多尺度的、质量保持的转换(quality preserving transformations )被应用在无标签的数据集上。

  3. 测试时,CNN网络的权重被冻结,从CNN输出的特征被映射到简单的全连接层做质量回归,得到质量分数。在多个数据集上取得较好的结果(没有额外的CNN网络的微调)。

  4. 我们设计的网络(CONTRIQUE )很简单,泛化性好,而且可以简单的扩展到FR IQA问题中(不用另外训练CNN网络)。

II. RELATED WORK

NR-IQA Models

        所面临的挑战(跟自己本篇paper沾边的,也就是说,本篇paper能解决的问题)。以往工作是如何处理解决这一问题的。例如本文:提出问题—图像内容对于不同失真类型所附加的额外影响,影响到 IQA。

        以往工作解决方案 :

  1. 提出超的网络结构来区分质量预测和内容理解
  2. 等级平滑损失函数
  3.  元学习:从不同的失真类型中获取先验知识
  4. 同时训练图像以及图像块

    以上工作大部分都依赖于监督学习,然后做微调来获得好的效果。我们的工作主要是基于无监督,并且不需要微调。

    提了一下transformer,并指出了本篇工作不适用transformer做基底的原因:模型较为复杂,需要大量的数据和算例,而且本篇工作主要在于讨论无监督学习,所以只基于CNN来做。

  • 将NR 模型扩展到分类任务上。

  • 模型大概的结构:特征提取 + 质量回归

        特征提取的方式多种多样:传统:基于NSS的模型,一句话概括方法,列举几个例子,优缺点(重点是缺点)。

  • 基于深度学习的模型:一句话概括方法;

        优缺点,针对缺点目前的工作所给出的解决策略;

        列举几个例子:

    • 失真鉴别+质量预测的双流网络

    • 分别针对真实失真和合成失真的网络

    • 训练中应用 FR-IQA maps作为监督指导信息

    • 应用主观质量评估分数的分布统计信息

Self-Supervised Learning

        自监督/无监督学习技术奏效,得益于从图像数据中提取到了有用的结构信息。

        列举了一些自监督任务的例子

        本篇提出将失真类型和失真程度的鉴别作为自监督任务,来帮助学习图像特征,以辅助质量预测任务。

III. METHOD

        带通转换,如小波样分解,经常用于模拟初级视觉皮层的视觉神经元的反应,这些神经元对具有特定空间位置、频率和方向的视觉刺激进行调谐。

        传统的NR-IQA模型是基于带通道转换,如DCT[12]、可导向金字塔[11]、局部均值-减法[13]、[14]等,在预测感知质量方面非常有效。

        深度cnn引出的转换在捕获感知图像伪影[18],[20],[21]方面表现出了显著的效率。

 

 Auxiliary Task

        概括什么是代理任务:代理的、密切相关的任务(真实标签较容易被知道或者获得)。然后我们的模型被训练来解决这个辅助任务,然后再将训练好的模型用在预测阶段。

        以IQA为例:

  • 目标——是获得能够区分不同类型失真以及失真程度的不同表征形式
  • 因此,我们就将 IQA特征学习任务 转换成了 分类任务
  • 每个类别是拥有相似失真类型以及相似失真程度的图像
  • 使用的目标函数:交叉熵损失函数

 

 

 损失函数

         N : 一个batch里的图像数量

Multi-scale Learning and Cropping

        利用多尺度的特征,基于CNN的IQA模型获取到了很好的结果。

        我们的CONTRIQUE 模型用到两个维度:

  • 原分辨率
  • 一半维度分辨率(通过沿两个维度的两个因子降采样获得,为了避免混叠伪影,在下采样前使用抗混叠滤波器。在这个调整大小操作中保留了纵横比,因为修改这个比例会影响底层图像的质量。)

        然后图像被随机裁剪到固定大小:M x M

Quality Preserving Transformations/Augmentations

        本篇选取的质量保持不变的变换:水平翻转 和 颜色空间转换

        我们使用了四种颜色空间方式:

  • RGB
  • LAB
  • HSV
  • Grayscale

Realistic Distortions

        在我们的模型中,每个UGC图像都被看作一个单独的类,由多种失真组合而成的一种结合,区别于其他UGC图像,也区别于合成失真的图像。

        对于给定的UGC图像:xi

        只有它的等变变换之后的图像: x j 跟它属于同一类 。

此时的损失函数是:

 

总的损失函数:

 

IV. EXPERIMENTS AND RESULTS

Correlation Against Human Judgments

 

 

Cross Dataset Evaluation

 

Visual Comparison of Representations

 

Significance of Training Data

 

Robustness to Training Data

 

Importance of Different Color Spaces

 

 

Significance of Multi-scale Learning

 

Effect of Batch Size and Crop Size

 

 

Limitations of the Model

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

图像质量评估——论文精读系列 的相关文章

随机推荐

  • idea创建python项目

    windows安装pyhon Window 安装 Python 哭哭啼的博客 CSDN博客下载官网地址 https www python org downloads windows 此处下载最新版本 64位 安装找到下载的文件解压文件即可配
  • 动态链接库和静态链接库的原理及区别

    静态连接库就是把 lib 文件中用到的函数代码直接链接进目标程序 程序运行的时候不再需要其它的库文件 动态链接就是把调用的函数所在文件模块 DLL 和调用函数在文件中的位置等信息链接进目标程序 程序运行的时候再从DLL中寻找相应函数代码 因
  • Ubuntu 下同局域网主机访问Tomcat 服务器

    转自 https blog csdn net zm yang article details 70483439 搭建Tomcat环境 自己写些小应用 需要用到服务器 便在Ubuntu环境下搭建了个Tomcat服务器 搭建方法很简单 去官网下
  • 数据转换之数据清洗

    一 实现对文本文件personnel data txt中的数据进行数据粒度的转换 即将文本文件personnel data txt中字段为household register的数据统一成省份 直辖市 并输出到文本文件personnel da
  • 大数据时代移动边缘计算架构中的差分隐私保护(二)

    大数据时代移动边缘计算架构中的差分隐私保护 二 实际上 给数据加拉普拉斯噪声或者是指数噪声是针对中心式的差分隐私处理框架的 对于本地化的差分隐私处理框架 现在已有的是采用随即相应技术 Bloom Filter等技术满足 本地化差分隐私 LD
  • 【iOS】—— SDWebImage源码学习

    SDWebImage源码 文章目录 SDWebImage源码 1 UIKit层 sd internalSetImageWithURL 1 取消之前下载操作 2 设置占位图 3 判断URL是否合法 2 工具层 SDWebImageManage
  • 毕业设计 - 基于单片机的智能水箱

    文章目录 1 简介 2 概述 2 1 系统描述 2 2 系统目标 3 具体实现 3 1 系统组成架构 3 2 系统功能 3 3 系统特点 3 4 水位检测及自动供水实现 3 5 水箱盖监控实现 3 6 信息实时传输实现 3 7 安卓客户端实
  • 【PIC单片机】2.编译器下载

    XC8 XC16和XC32对应8位 16位和32位PIC单片机 按实际使用的单片机选择下载最新版本即可 官网链接 https www microchip com en us development tools tools and softw
  • 目录:四种Qt程序的架构设计方法

    四种常见的关于Qt程序的架构设计方法 使用MVC设计模式MVC是Model View Controller的缩写 是应用程序开发中常用的设计模式 在Qt中 可以使用QAbstractItemModel和QTreeView等类来实现MVC模式
  • 如何设置、查询 ESP32 设备的 MAC 地址

    设置 查询 ESP32 设备的 MAC 地址有多种方式 如下 1 使用 AT 指令来设置 查询 ESP32 设备的 MAC 地址 1 1 使用 AT 指令设置 查询 Wi Fi Station 模式的 MAC 地址 使用 AT CIPSTA
  • 【数据库设计】无损连接的判别方法

    数据库设计 无损连接的判别方法 无损连接是指分解后的关系通过自然连接可以恢复成原来的关系 即通过自然连接得到的关系与原来的关系相比 既不多出信息 又不丢失信息 保持函数依赖分解是指在模式的分解过程中 函数依赖不能丢失的特性 即模式分解不能破
  • 数据库视图的基本操作(sql语句)

    表视图的增删改查 sql语句 概念 视图是一张虚拟表 它是从数据库的一张或多张表中导出的表 其内容由查询语句定义 作用 简单性 安全性 逻辑数据独立性 如果应用建立在视图上 当表发生变化时 可以修改视图屏蔽表的变化 使应用程序保持不变 如果
  • Python前台搜索-之百度网站搜索

    简述 selenium是谷歌公司的一个项目 这句代码的含义 从谷歌公司的一个项目导入 import 浏览器驱动webdriver 浏览器驱动是用代码来操作浏览器的 简述 调用webdriver Chrome 打开浏览器 简述 通过get方法
  • 多行文字 溢出隐藏 三个点 兼容 IE8+ 及常用浏览器

    常用浏览器css简单实现 text overflow ellipsis overflow hidden display webkit box webkit box orient vertical webkit line clamp 3 IE
  • Mac 使用rz sz 命令

    1 首先安装brew与lrzsz 参考 https blog csdn net weixin 35757704 article details 108880008 然后在控制台 brew install lrzsz 2 安装iterm2 自
  • SQL注入种类

    SQL注入攻击的种类 知彼知己 方可取胜 首先要清楚SQL注入攻击有哪些种类 工具 原料 云盾 方法 步骤 1 1 没有正确过滤转义字符 在用户的输入没有为转义字符过滤时 就会发生这种形式的注入式攻击 它会被传递给一个SQL语句 这样就会导
  • Java跳转语句(break,continue,return)

  • const char*和char *const

    1 const char const在指针前 修饰常量 指向常量的指针 指针指向可以改 指针指向的值不可以改 char ch 5 list const char pStr ch pStr w error pStr hi 提示 虽然不能用pS
  • 步进电机基础(5.1)-步进电机的驱动与控制-恒压驱动、恒流驱动

    步进电机基础 5 1 步进电机的驱动与控制 恒压驱动 前言 基本信息 前言说明 步进电机的驱动与控制 5 1 恒电压驱动 1 使用外加电阻的驱动 2 无外加电阻的驱动 3 电压驱动 5 2 恒电流驱动 前言 基本信息 名称 描述说明 教材名
  • 图像质量评估——论文精读系列

    Madhusudana P C Birkbeck N Wang Y et al Image quality assessment using contrastive learning J IEEE Transactions on Image