图像质量评估——论文精读系列

2023-11-15

Madhusudana P C, Birkbeck N, Wang Y, et al. Image quality assessment using contrastive learning[J]. IEEE Transactions on Image Processing, 2022.

（本篇博客中出现的图片大部分来源于原论文）

[toc]

文章结构

ABSTRACT
I. INTRODUCTION
II. RELATED WORK
- NR-IQA Models
- Self-Supervised Learning
III. METHOD
- A. Auxiliary Task
- Multi-scale Learning and Cropping
- Quality Preserving Transformations/Augmentations
- Realistic Distortions
- Patch Features
- Evaluating Representations
IV. EXPERIMENTS AND RESULTS
- Experimental Settings
- Correlation Against Human Judgments
- Cross Dataset Evaluation
- Visual Comparison of Representations
- Significance of Training Data
- Robustness to Training Data
- Importance of Different Color Spaces
- Significance of Multi-scale Learning
- Effect of Batch Size and Crop Size
- Limitations of the Model
V. CONTRIQUE FULL-REFERENCE MODEL
VI. CONCLUSION

[]

Abstract

想用自监督来做质量评估任务

CNN ：用成对的图像来对比学习，完成辅助任务——预测失真类型和失真等级
提出方法： CONTRastive Image QUality Evaluator (CONTRIQUE)

I. INTRODUCTION

介绍图像质量评估是做什么的；介绍NR IQA是做什么的，所面临的挑战（受多因素的影响、受图像内容的影响）；NR IQA研究的必要性，应用场景。
NR IQA 技术发展的历程：合成失真的数据集的生成及其缺点，真实失真数据集的生成及其特点。针对这些数据集，NR IQA模型所要针对解决的点。
建立NR-IQA模型主要依赖于参数化和学习方法。介绍了几种类型的NR-IQA 模型，包括基于NSS的模型：通过统计获取特征用于质量预测；其优点是对于合成失真较为有效，但对于未知失真的图像质量预测效果表现受限；基于CNN的模型：数据驱动的IQA 模型。
基于CNN的模型最大的限制：缺少带标签的大数据集，而建造数据集是一个很耗资源的活动。但是已经存在的数据集又太小，不能很好的训练CNN网络模型。因此大部分CNN网络针对以上问题的解决方案是：迁移学习（pretrained & fine-tuned）, 缺点：针对不同的数据集，要做不同的超参数的微调。此外，过度微调容易产生过拟合，使得模型泛化性能下降。
我们打算使用没有标签的数据集来做 IQA，灵感来自于用于图像分类问题的无监督/自监督学习方法。

创新点：

失真类型、失真等级的预测作为辅助任务（CNN的训练在同时包含合成失真和真实失真的无标签的数据集上做，使用对比目标函数）
为了学习较强的表征信息，在训练中，多尺度的、质量保持的转换（quality preserving transformations ）被应用在无标签的数据集上。
测试时，CNN网络的权重被冻结，从CNN输出的特征被映射到简单的全连接层做质量回归，得到质量分数。在多个数据集上取得较好的结果（没有额外的CNN网络的微调）。
我们设计的网络（CONTRIQUE ）很简单，泛化性好，而且可以简单的扩展到FR IQA问题中（不用另外训练CNN网络）。

II. RELATED WORK

NR-IQA Models

所面临的挑战（跟自己本篇paper沾边的，也就是说，本篇paper能解决的问题）。以往工作是如何处理解决这一问题的。例如本文：提出问题—图像内容对于不同失真类型所附加的额外影响，影响到 IQA。

以往工作解决方案 :

提出超的网络结构来区分质量预测和内容理解
等级平滑损失函数
元学习：从不同的失真类型中获取先验知识
同时训练图像以及图像块

以上工作大部分都依赖于监督学习，然后做微调来获得好的效果。我们的工作主要是基于无监督，并且不需要微调。

提了一下transformer，并指出了本篇工作不适用transformer做基底的原因：模型较为复杂，需要大量的数据和算例，而且本篇工作主要在于讨论无监督学习，所以只基于CNN来做。

将NR 模型扩展到分类任务上。
模型大概的结构：特征提取 + 质量回归

特征提取的方式多种多样：传统：基于NSS的模型，一句话概括方法，列举几个例子，优缺点（重点是缺点）。
基于深度学习的模型：一句话概括方法；

优缺点，针对缺点目前的工作所给出的解决策略；

列举几个例子：
- 失真鉴别+质量预测的双流网络
- 分别针对真实失真和合成失真的网络
- 训练中应用 FR-IQA maps作为监督指导信息
- 应用主观质量评估分数的分布统计信息

Self-Supervised Learning

自监督/无监督学习技术奏效，得益于从图像数据中提取到了有用的结构信息。

列举了一些自监督任务的例子

本篇提出将失真类型和失真程度的鉴别作为自监督任务，来帮助学习图像特征，以辅助质量预测任务。

III. METHOD

带通转换，如小波样分解，经常用于模拟初级视觉皮层的视觉神经元的反应，这些神经元对具有特定空间位置、频率和方向的视觉刺激进行调谐。

传统的NR-IQA模型是基于带通道转换，如DCT[12]、可导向金字塔[11]、局部均值-减法[13]、[14]等，在预测感知质量方面非常有效。

深度cnn引出的转换在捕获感知图像伪影[18]，[20]，[21]方面表现出了显著的效率。

Auxiliary Task

概括什么是代理任务：代理的、密切相关的任务（真实标签较容易被知道或者获得）。然后我们的模型被训练来解决这个辅助任务，然后再将训练好的模型用在预测阶段。

以IQA为例：

目标——是获得能够区分不同类型失真以及失真程度的不同表征形式
因此，我们就将 IQA特征学习任务转换成了分类任务
每个类别是拥有相似失真类型以及相似失真程度的图像
使用的目标函数：交叉熵损失函数

损失函数：

N ：一个batch里的图像数量

Multi-scale Learning and Cropping

利用多尺度的特征，基于CNN的IQA模型获取到了很好的结果。

我们的CONTRIQUE 模型用到两个维度：

原分辨率
一半维度分辨率（通过沿两个维度的两个因子降采样获得，为了避免混叠伪影，在下采样前使用抗混叠滤波器。在这个调整大小操作中保留了纵横比，因为修改这个比例会影响底层图像的质量。）

然后图像被随机裁剪到固定大小：M x M

Quality Preserving Transformations/Augmentations

本篇选取的质量保持不变的变换：水平翻转和颜色空间转换

我们使用了四种颜色空间方式：

RGB
LAB
HSV
Grayscale

Realistic Distortions

在我们的模型中，每个UGC图像都被看作一个单独的类，由多种失真组合而成的一种结合，区别于其他UGC图像，也区别于合成失真的图像。

对于给定的UGC图像：xi

只有它的等变变换之后的图像： x j 跟它属于同一类。

此时的损失函数是：

总的损失函数：

IV. EXPERIMENTS AND RESULTS

Correlation Against Human Judgments

Cross Dataset Evaluation

Visual Comparison of Representations

Significance of Training Data

Robustness to Training Data

Importance of Different Color Spaces

Significance of Multi-scale Learning

Effect of Batch Size and Crop Size

Limitations of the Model

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

论文阅读系列

机器学习

人工智能

计算机视觉

图像处理