1、2017会议论文ICME:An accurate deepconvolutional neural networks model for no-reference image quality assessment,复旦大学。
1.1用了部分残差网络(ResNet)的知识,但是只用了两层残差网络。并且,该网络的输入为32*32的块,其label是用FSIM计算得到的。
---- 其中sum1是指conv2输出的feature map和conv3输出的feature map进行pixel-wise的相加。
1.2参数的设置:input:32*32,没有任何预处理,非重叠取块;损失函数:1范数;Learning rate的初始值为0.01,每过5个epoch,learning rate下降10倍,learning rate等于0.0001时,就固定不变了;80 epoches。在LIVE和TID2008数据库上进行试验,LIVE:PLCC-0.974,SRCC-0.971; TID2008:PLCC:0.957,SRCC:0.939。实验时,并没有将数据库分成train data (80%)和test data(20%), 原因论文中也讲了,作者用FSIM计算每一个image patch的分数,当成是image patch的label。其实,这类方法很多论文都出现过,但是用FSIM计算image patch的label,好像是第一次见到。(这类方法就是opinion-unaware)。!!!!需要注意的是,以为TID2008数据库中包含的失真类型太多,大部分论文都只使用部分data去做train和test(几种常见的失真)。
评论:感觉这种方法是有别于用FR method去计算whole image的label,为什么这样讲?比如FSIM,它在LIVE数据库上的性能顶多就是0.96左右,没记错的话。deep learning就算完全学到了一个映射函数f, 给能让输入的distorted image输出就为FSIM,该算法的性能也无法比FSIM好。什么意思呢?我指的是用FR method计算whole label, 算法的性能应该会受到FR method的影响。(瞎扯,说错了恳请批评)
(几篇用FR方法计算whole image label的论文: 2016NC:Learning a blind quality evaluation engine of screen content images, 2017TSMCS: Toward a blind quality predictor for screen content images, 2017TIP:No reference quality assessment of screen content pictures, 推荐的都是Screen content image quality assessment的文章)
2、2017TIP:Deep Neural Networks for No-Reference and Full-Reference Image QualityAssessment.
此论文提出了两个框架,一个是FR,另外一个是NR的,框架都差不多!。
---FR framework:
输入为reference patch和distorted patch (感觉输入其实是reference image和distorted image, 因为论文中有讲到,each min-batch contains 4 images, 从每一张image中随机提取32个图像块。作者又提到:Although it is possible to treateach image patch as a separate sample in the case of the patch-wise method,image patches of the same image cannot be distributed over differentmini-batches, as their output is combined for the calculation of the normalizedweights in the last layer!!! 看到这,应该懂了。我觉得batch size应该就是4了,文中说batch size 是128,我可能理解错了)
---网络使用的是VGG,因为论文image patch size设置成了32*32,所以经过conv3-32,conv3-32, max-pool, conv3-64, conv3-64,max-pool,conv3-128, conv3-128,max-pool, conv3-256,conv3-256,max-pool, conv3-512, conv3-512(pool size设置的是2*2). 所以output是512*1的向量。上通道和下通道的features通过concat,变成一个1536维向量。后面接全连接,计算patch weight和patch quality. 这个框架图特别扯(输入是patch, 输出是image quality estimate??? 还有pooling那一块,一个image patch算出的应该是一个值,怎么通过pooling???)。综上所述,认为这篇论文其实和下面的论文(3/4)思路是一样的。只是换了一下网络。
---NR Framework:
NR和FR的框架是一样的。
3、2017TJSTSP:Fully deep blind image quality predictor
----所提出的算法主要包括两部分:step 1 and step 2.
----step 1
输入:32*32的图像块,在提取图像块的时候,先经过local contrastnormalization (详细计算可以参考BRISQUE这篇论文,非常经典的NR IQA的论文)。
预处理:并不是所有的图像块都包含有用的信息,如背景。去除一些low spatial variations的图像块,具体操作没讲。论文NIQE、IL-NIQE和QAC里面也有提到块的选择问题。 输出Label:和一些论文一样,使用FR methods计算块的分数,作为label。本论文使用四种FR methods:SSIM, GMSD, FSIM, VSI。没看懂怎么融合成一个分数的!!!
公式如下:
----step 2: 输入是整张图像,提取每一个块,输入step 1获得的网络中,每一个图像块都对应100维特征,N个图像块,得到100*N进行两种权重,包括:均值和方差。特征维度降成100*2,输出为主观分数。
4、有时间再添加
2017TIP:Blind deep S3D image quality evaluation vialocal to global feature aggregation和2017IJSTSP:Full deep blind image quality predictor一样的套路。框架如下:
Step1:选用于3D图像质量评价的FR方法[1], 计算3D图像块的分数。提一下3D图像,刚好研究过小段时间,3D图像是由左视图和右视图组成的。在3D IQA database中,distortion分为对称失真和非对称失真。对称失真指的是左右视图受到同样的伤害,比如左视图被Gaussian noise污染了,右视图同样也被Gaussian noise污染了,非对称失真指的是左右视图受到不一样的伤害,比如左视图被Gaussian blur污染了,右视图被contrast change污染了,等等。3D IQA的performance也已经很高了。
Step2:同2017IJSTSP:(恩,这篇论文是发在TIP上.....)
[1]M. J. Chen, C. C. Su, D. L. Kwon, L. K. Cormack, and A. C. Bovik, “Full-referencequality assessment of stereopairs accounting for rivalry,” Signal Processing:Image Communication, vol. 28, pp. 1143-1155, 2013.
简单聊一下这篇论文:算是我看的第一篇3D IQA的论文。它提出了一个LIVE 3D database。首先,它提出了一种方法,可以将3D image合成一张2D image。在此基础上,用M-SSIM算法计算reference 3D image和distorted 3D image的相似性。
M-SSIM是多尺度结构相似性算法。图像downsample/downsample…计算每个尺度的SSIM值,再综合起来。