图像质量评价之结构相似性SSIM（中）

2023-05-16

在上一篇文章中，我们介绍了对图像质量进行评价的必要性、主观评价和客观评价的两种标准，以及设计符合人类直觉的评价标准的困难性和重要性。

本来这篇文章想把我们的主角SSIM讲完，但是发现前面需要写的铺垫有点长hhh，所以本文是作为一个过渡，系统的讲解一下设计图像评价标准的过程和目前的缺点，SSIM的详细讲解将在下一篇文章中介绍（保证下一篇是最后一篇，别打我QAQ）

提前预告一下，这一篇可能比较无聊==，但是对在脑海中构建一个整体框架还是挺有帮助的~

基于误差敏感性的图像质量评价

在对图像质量进行评价时，我们会拿到一些未失真的原始图像信号和一个失真图像信号，之后我们将失真图像与未失真图像通过一定的方法进行比较，最终得到一个失真图像与原始图像的误差。我们一般会假设失真图像质量与得到的误差直接相关，这样这个误差最终就被认为是衡量图像质量的标准。

这里面最简单的例子就是MSE，但MSE效果是在太差（参照前面讲的，同一个MSE对应不同质量的图片），于是近年来新的方法不断被提出。在这里我们介绍一下提出一个新的基于**误差敏感性（error sensitivity）**的评价标准的一般步骤，以及现有的方法有什么局限性。

一般步骤

评价标准的设计过程一般分为预处理、CSF滤波、通道分解、误差归一化、误差池化5步，下面分别简单介绍，这个部分大略看看就好不需要完全理解~

预处理（pre-processing）：首先，拿到图像一般不能直接用，需要做些预处理，对图像信号进行一些基本变换，比如缩放、排列，或者转换颜色空间(color space)，以及针对显示设备逐像素进行变换等等。
CSF滤波（CSF Filtering）：接下来可能要对对预处理得到的图像信号使用CSF进行加权。CSF的全称是contrast sensitivity function，按照字面翻译过来就是对比度敏感性函数。这个函数描述了人类视觉系统（HVS）对视觉刺激的时空频率的敏感程度。
CSF一般会用一个线性滤波器来近似实现。不过在现在的一些研究当中，是在后面提到的通道分解之后，用基频灵敏度归一化（base-sensitivity normalization）实现CSF。
通道分解（Channel Decomposition）：图像一般由多个**通道（channel）**组成（比如最常见的RGB+alpha通道）。经过前面两步处理的图像信号，往往需要再分解成多个不同的通道。
把图像信号分解成若干通道时，可以考虑视觉皮层的神经元的特性，也可以只做一些很简单的变换，比如离散余弦变换(discrete cosine transformDCT)、*可分离的小波变换（separable wavelet transform）*等等。
误差归一化（Error Normalization）：分解完通道，我们混通过指标中的定义计算出失真图像与参照图像在每个通道的误差。但是需要注意，各个通道计算出的误差的数量级可能不一样，需要归一化到相当的水平。
误差池化（Error Pooling）：现在到了最后一步，就是把空间上各部分和各通道的误差使用某种方法“合成”为一个数字，也就是我们最终得到的误差啦~
其中，一个很经典的“合成”方法是使用闵可夫斯基范数（Minkowski Norm），公式是这样滴：
E ( { e l , k } ) = ( ∑ l ∑ k ∣ e l , k ∣ β ) 1 β E(\{e_{l,k}\}) = (\sum\limits_l \sum\limits_k|e_{l,k}|^\beta)^\frac{1}{\beta} E({el,k})=(l∑k∑∣el,k∣β)β1
这里的 e l , k e_{l,k} el,k 是第 l l l个通道的第 k k k个系数归一化之后的误差，而 β \beta β是个常数，一般取1到4。我们可以选择先累加 k k k再累加 l l l，当然也可以反过来。

局限性

现在基于误差敏感性的方法确实有用，不过局限性也有很多。其中一个很突出的问题是，人类视觉系统很复杂，是高度非线性的，但早期的评价标准很多都只使用了线性（linear）或准线性（quasilinear）算子进行计算。

目前已经有很多对这些方法的局限性的研究了，这里大略总结一下（这个部分只是简单介绍，省略了原始论文中的一些细节说明）：

图像质量的定义问题（The Quality Definition Problem）：对于传统的评价方法来说，最基本的一个问题就是怎样定义图像质量。我们很难说图像的质量上的损失是否就能体现保真程度。有些质量问题可以轻易观察到，但是不太影响图像的失真程度。比如说，我们把所有的像素都乘上一个常数，图像并不会失真多少，但图像的各像素值却有明显的变化。
超阈值问题（The Suprathreshold Problem）：这属于精神物理学（psychophysics）中的概念，很多标准是建立在**阈值（threshold）的基础上的，也就是研究刚刚能引起响应的刺激。而当刺激远远超过阈值，也就是在阈上（suprathreshold ）**时，相关研究就很少。但图像中却需要考虑这方面。
关于阈值和超阈想要了解的可以参考这里。
自然图像的复杂性问题（The Natural Image Complexity Problem）：真实图片十分复杂，而现有的应用的模式却很简单，这是个不得不面对的问题。
去除相关性问题（The Decorrelation Problem）：在使用之前提到的Minkowski范数进行误差的计算时，我们其实已经暗自做了一个假设：不同位置上的误差是独立的。只有这样，我们才能把它们累加起来。而事实上，如果我们在之前误差池化这一步中使用一些线性的分解方法，就没有去除这种相关性。
认知交互问题（The Cognitive Interaction Problem）：人类在认知上的特点以及在观察图片时的所做的一些交互行为（比如看图片时眼睛的移动）也会影响人对图片质量的感受。之前也有研究表明，在观察图片时，给的交互方式不同，最终人的评价也不一样。但这种东西很难去把握，所以多数方法种也就没有考虑这方面的影响。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)