搜索

x

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于图像色貌和梯度特征的图像质量客观评价

史晨阳 林燕丹

引用本文:
Citation:

基于图像色貌和梯度特征的图像质量客观评价

史晨阳, 林燕丹

Objective image quality assessment based on image color appearance and gradient features

Shi Chen-Yang, Lin Yan-Dan
PDF
HTML
导出引用
  • 图像质量评价(IQA)方法需要考虑如何从主观视觉度量结果出发, 设计出符合该结果的客观图像质量评价方法, 应用到相关实际问题中. 本文从视觉感知特性出发, 量化色度和结构特征信息, 提出了基于色貌和梯度两个图像特征的图像质量客观评价模型. 两个色貌新指标(vividness和depth)是色度特征信息提取算子; 梯度算子用来提取结构特征信息. 其中, vividness相似图一方面作为特征提取算子计算失真图像局部质量分数, 另一方面作为图像全局权重系数反应每个像素的重要程度. 为了量化所提模型的主要参数, 根据通用模型性能评价指标, 使用Taguchi实验设计方法进行优化. 为了验证该模型的性能, 使用4个常用图像质量数据库中的94幅参考图像和4830幅失真图像进行对比测试, 从预测精度、计算复杂度和泛化性进行分析. 结果表明, 所提模型的精度PLCC值在4给数据库中最低实现0.8455, 最高可以达到0.9640, 综合性能优于10个典型和近期发表的图像质量评估(IQA)模型. 研究结果表明, 所提模型是有效的、可行的, 是一个性能优异的IQA模型.
    With the rapid development of color image contents and imaging devices in various kinds of multimedia communication systems, conventional grayscale counterparts are replaced by chromatic ones. Under such a transition, the image quality assessment (IQA) model needs to be built by subjective visual measurement, designed in accordance with the results, and applied to the related practical problems. Based on the visual perception characteristics, chromaticity and the structure feature information are quantified, and an objective IQA model combining the color appearance and the gradient image features is proposed in this paper, namely color appearance and gradient similarity(CAGS) model. Two new color appearance indices, vividness and depth, are selected to build the chromatic similarity map. The structure information is characterized by gradient similarity map. Vividness map plays two roles in the proposed model. One is utilized as feature extractor to compute the local quality of distorted image, and the other is as a weight part to reflect the importance of local domain. To quantify the specific parameters of CAGS, Taguchi method is used and four main parameters, i.e., KV, KD, KG and α, of this model are determined based on the statistical correlation indices. The optimal parameters of CAGS are KV = KD = 0.02, KG = 50, and α = 0.1. Furthermore, the CAGS is tested by utilizing 94 reference images and 4830 distorted images from the four open image databases (LIVE, CSIQ, TID2013 and IVC). Additionally, the influences of the 35 distortion types on IQA are analyzed. Massive experiments are performed on four publicly available benchmark databases between CAGS and other 10 state-of-the-art and recently published IQA models, for the accuracy, complexity and generalization performance of IQA. The experimental results show that the accuracy PLCC of the CAGS model can achieve 0.8455 at lowest and 0.9640 at most in the four databases, and the results about commonly evaluation criteria prove that the CAGS performs higher consistency with the subjective evaluations. Among the 35 distortion types, the two distortion types, namely contrast change and change of color saturation, CAGS and mostly IQA models have the worst influence on IQA, and the CAGS yields the highest top three rank number. Moreover, the SROCC values of CAGS for other distortion types are all larger than 0.6 and the number of SROCC value larger than 0.95 is 14 times. Besides, the CAGS maintains a moderate computational complexity. These results of test and comparison above show that the CAGS model is effective and feasible, and the corresponding model has an excellent performance.
      通信作者: 林燕丹, ydlin@fudan.edu.cn
    • 基金项目: 国家重点研发计划(批准号: 2017YFB0403700)资助的课题
      Corresponding author: Lin Yan-Dan, ydlin@fudan.edu.cn
    • Funds: Project supported by the National Key R&D Program of China (Grant No. 2017YFB0403700)
    [1]

    姚军财, 刘贵忠 2018 物理学报 67 108702Google Scholar

    Yao J C, Liu G Z 2018 Acta Phys. Sin. 67 108702Google Scholar

    [2]

    Athar S, Wang Z 2019 IEEE Access 7 140030Google Scholar

    [3]

    Lin W S, Kuo C C J 2011 J. Vis. Commun. Image R. 22 297Google Scholar

    [4]

    Chang H W, Zhang Q W, Wu Q G, Gan Y 2015 Neurocomputing 151 1142Google Scholar

    [5]

    Wang Z, Bovik A C, Sheikh H R, Simoncelli E P 2004 IEEE Trans. Image Process. 13 600Google Scholar

    [6]

    Sheikh H R, Bovik A C 2006 IEEE Trans. Image Process. 15 430Google Scholar

    [7]

    Sheikh H R, Bovik A C, de Veciana G 2005 IEEE Trans. Image Process. 14 2117Google Scholar

    [8]

    Wang Z, Simoncelli E P, Bovik A C 2003 37th Asilomar Conference on Signals, Systems and Computer PacificGrove, CA, November 9−12, 2003 pp1398−1402

    [9]

    Wang Z, Li Q 2011 IEEE Trans. Image Process. 20 1185Google Scholar

    [10]

    Larson E C, Chandler D M 2010 J. Electron. Imaging 19 011006Google Scholar

    [11]

    Zhang L, Zhang L, Mou X Q 2010 IEEE International Conference on Image Processing Hong Kong, Peoples of China, September 26−29, 2010 pp321−324

    [12]

    Zhang L, Zhang L, Mou X Q, Zhang D 2011 IEEE Trans. Image Process. 20 2378Google Scholar

    [13]

    Liu A M, Lin W S, Narwaria M 2012 IEEE Trans. Image Process. 21 1500Google Scholar

    [14]

    Jia H Z, Zhang L, Wang T H 2018 IEEE Access 6 65885Google Scholar

    [15]

    姚军财, 申静 2020 物理学报 69 148702Google Scholar

    Yao J C, Shen J 2020 Acta Phys. Sin. 69 148702Google Scholar

    [16]

    Robertson A R 1990 Color Res. Appl. 15 167Google Scholar

    [17]

    Mahny M, Vaneycken L, Oosterlinck A 1994 Color Res. Appl. 19 105

    [18]

    Lee D, Plataniotis K N 2015 IEEE Trans. Image Process. 24 3950Google Scholar

    [19]

    Lee D, Plataniotis K N 2014 2014 International Conference on Acoustics, Speech and Signal Processing (ICASSP) Florence, Italy, May 4−9, 2014 pp166−170

    [20]

    Berns R S 2014 Color Res. Appl. 39 322Google Scholar

    [21]

    Zhang L, Shen Y, Li H Y 2014 IEEE Trans. Image Process. 23 4270Google Scholar

    [22]

    Jain R C, Kasturi R, Schunck B G 1995 Machine Vision (New York: McGraw-Hill) pp140–185

    [23]

    Sonka M, Hlavac V, Boyle R 2008 Image Processing, Analysis and Machine Vision (3rd Ed.) (Stanford: Cengage Learning) p77

    [24]

    Xue W F, Zhang L, Mou X Q, Bovik A C 2014 IEEE Trans. Image Process. 23 684Google Scholar

    [25]

    Kim D O, Han H S, Park R H 2010 IEEE Trans. Consum. Electr. 56 930Google Scholar

    [26]

    Nafchi H Z, Shahkolaei A, Hedjam R, Cheriet M 2016 IEEE Access 4 5579Google Scholar

    [27]

    Taguchi G, Yokoyama Y, Wu Y 1993 Taguchi Methods, Design of experiments (Dearbon, MI: ASI Press) pp59−63

    [28]

    Ponomarenko N, Jin L, Ieremeiev O, Lukin V, Egiazarian K, Astola J, Vozel B, Chehdi K, Carli M, Battisti F, Kuo C C J 2015 Signal Process. Image Commun. 30 57Google Scholar

    [29]

    Larson E C, Chandler D M http://vision.eng.shizuoka.ac.jp/mod/page/view.php?id=23[2020-7-13]

    [30]

    Sheikh H R, Sabir M F, Bovik A C 2006 IEEE Trans. Image Process. 15 3440Google Scholar

    [31]

    Ninassi A, Le Callet P, Autrusseau F 2006 Conference on Human Vision and Electronic Imaging Ⅺ San Jose, CA, USA, January 16–18, 2006 p1

    [32]

    Wang S Q, Gu K, Zeng K, Wang Z, Lin W S 2016 Proc. SPIE 6057 Comput. Graph. Appl. 38 47Google Scholar

    [33]

    Lin C H, Wu C C, Yang P H, Kuo T Y 2009 J. Disp. Technol. 5 323Google Scholar

    [34]

    Preiss J, Fernandes F, Urban P 2014 IEEE Trans. Image Process. 23 1366Google Scholar

  • 图 1  颜色1和2的vividness($ V_{ab}^* $)和depth($ D_{ab}^* $)维度表征, 线段长度定义对应属性[20]

    Fig. 1.  Dimensions of vividness, $ V_{ab}^* $, and depth, $ D_{ab}^* $ for colors 1 and 2. Line lengths define each attribute[20].

    图 2  从LIVE数据库中提取的典型图像 (a)为参考图像; (b)为高斯模糊畸变类型的失真图像; (c)和(e)分别是参考图像的Vividness和Depth图; (d)和(f)分别是失真图像的Vividness和Depth图; (g)是色貌相似图; (h)为梯度相似图

    Fig. 2.  Typical images extracted from LIVE: (a) The reference image;(b) the distorted vision of it by Gaussian blur distortion type; (c) and (e) are the vividness and depth map of the reference image, respectively; (d) and (f) are the vividness and depth map of the distorted image; (g) the color appearance similarity map by connecting the vividness and depth similarity map; (h) the gradient similarity map.

    图 3  本文提出的IQA模型CAGS的计算过程

    Fig. 3.  Illustration for the computational process of the proposed IQA model CAGS.

    图 4  SROCC和RMSE对应的不同水准的S/N

    Fig. 4.  S/N ratio of different levels for SROCC and RMSE.

    图 5  不同KG值对模型性能的影响

    Fig. 5.  Performance of different KG values.

    图 6  基于TID2013数据库的主观MOS与IQA模型计算结果拟合对比 (a) IW-SSIM; (b) IFC; (c) VIF; (d) MAD; (e) RFSIM; (f) FSIMc; (g) GSM; (h) CVSS; (i) CAGS

    Fig. 6.  Scatter plots of subjective MOS against scores calculated by IQA models’ prediction for TID2013 databases: (a) IW-SSIM; (b) IFC; (c) VIF; (d) MAD; (e) RFSIM; (f) FSIMc; (g) GSM; (h) CVSS; (i) CAGS.

    图 7  CAGS与MPCC在TID2013数据库种不同失真类型PLCC值对比

    Fig. 7.  PLCC comparison of different distortion types between CAGS and MPCC on TID2013.

    表 1  IQA数据库基本信息

    Table 1.  Benchmark test databases for IQA.

    数据库原始图像数量失真图像数量失真类型观察者
    TID201325300024971
    CSIQ30866635
    LIVE297795161
    IVC10185415
    下载: 导出CSV

    表 2  变量参数及其控制水准

    Table 2.  Influence factors and level setting for CAGS.

    代号参数表述水准数水准一水准二水准三
    AKV30.0020.020.2
    BKD30.0020.020.2
    CKG31050100
    Dα30.10.51
    下载: 导出CSV

    表 3  采用L9(34)直交表的实验设计及IVC数据库测试结果

    Table 3.  Design with a L9(34) orthogonal array for IVC database.

    实验序号ABCDSROCCSROCC的S/NRMSERMSE的S/N
    111110.9300–0.63030.41137.7168
    212220.9192–0.73180.45336.8723
    313330.9096–0.82300.48256.3301
    421230.9171–0.75170.45966.7524
    522310.9173–0.74980.46726.6099
    623120.9291–0.63880.41427.6558
    731320.9114–0.80580.47356.4936
    832130.9279–0.65000.41747.5890
    933210.9195–0.72900.44816.9725
    下载: 导出CSV

    表 4  对比不同IQA模型的4个数据库性能

    Table 4.  Performance comparison of IQA models on four databases.

    数据库SSIMIW-SSIMIFCVIFMADRFSIMFSIMCGSMCVSSMPCCProposed
    TID2013SROCC0.74170.77790.53890.67690.78070.77440.85100.79460.80690.84520.8316
    PLCC0.78950.83190.55380.77200.82670.83330.87690.84640.84060.86160.8445
    RMSE0.76080.68801.03220.78800.69750.68520.59590.66030.67150.62930.6639
    KROCC0.55880.59770.39390.51470.60350.59510.66650.62550.63310.6469
    CSIQSROCC0.87560.92130.76710.91950.94660.92950.93100.91080.95800.95690.9198
    PLCC0.86130.91440.83840.92770.95020.91790.91920.89640.95890.95860.9014
    RMSE0.13340.10630.14310.09800.08180.10420.10340.11640.07450.07470.1137
    KROCC0.69070.75290.58970.75370.79700.76450.76900.73740.81710.7487
    LIVESROCC0.94790.95670.92590.96360.96690.94010.95990.95610.96720.96600.9734
    PLCC0.94490.95220.92680.96040.96750.93540.95030.95120.96510.96220.9640
    RMSE8.94558.347310.26437.61376.90739.66427.19978.43277.15737.43978.3251
    KROCC0.79630.81750.75790.82820.84210.78160.83660.81500.84060.8658
    IVCSROCC0.90180.91250.89930.89640.91460.81920.92930.85600.88360.9195
    PLCC0.91190.92310.90930.90280.92100.83610.93920.86620.84380.9298
    RMSE0.49990.46860.50690.52390.47460.66840.41830.60880.65380.4483
    KROCC0.72230.73390.72020.71580.74060.64520.76360.66090.69570.7488
    权重平均SROCC0.80510.83760.65600.77500.84560.83060.88590.84380.86280.8737
    PLCC0.83210.86960.67860.83530.87520.86500.89870.87300.88200.8772
    KROCC0.62700.66620.50020.61580.68190.65750.71600.67750.70200.7044
    直接平均SROCC0.86680.89210.78280.86410.90220.86580.91780.87940.90390.9111
    PLCC0.87690.90540.80710.89070.91640.88070.92140.89010.90210.9099
    KROCC0.69200.72550.61540.70310.74580.69660.75890.70970.74660.7526
    下载: 导出CSV

    表 5  IQA模型的不同失真类型SROCC值对比

    Table 5.  SROCC values of IQA models for different types of distortions.

    数据库失真类型SSIMIW-SSIMIFCVIFMADRFSIMFSIMCGSMCVSSMPCCProposed
    TID2013AGN0.86710.84380.66120.89940.88430.88780.91010.90640.94010.86660.9359
    ANC0.77260.75150.53520.82990.80190.84760.85370.81750.86390.81870.8653
    SCN0.85150.81670.66010.88350.89110.88250.89000.91580.90770.73960.9276
    MN0.77670.80200.69320.84500.73800.83680.80940.72930.77150.70320.7526
    HFN0.86340.85530.74060.89720.88760.91450.90940.88690.90970.89570.9159
    IN0.75030.72810.62080.85370.27690.90620.82510.79650.74570.67470.8361
    QN0.86570.84680.62820.78540.85140.89680.88070.88410.88690.79310.8718
    GB0.96680.97010.89070.96500.93190.96980.95510.96890.93480.92180.9614
    DEN0.92540.91520.77790.89110.92520.93590.93300.94320.94270.95100.9466
    JPEG0.92000.91870.83570.91920.92170.93980.93390.92840.95210.89640.9585
    JP2 K0.94680.95060.90780.95160.95110.95180.95890.96020.95870.91600.9620
    JPTE0.84930.83880.74250.84090.82830.83120.86100.85120.86130.85710.8644
    J2 TE0.88280.86560.77690.87610.87880.90610.89190.91820.88510.84090.9250
    NEPN0.78210.80110.57370.77200.83150.77050.79370.81300.82010.77530.7833
    Block0.57200.37170.24140.53060.28120.03390.55320.64180.51520.53960.6015
    MS0.77520.78330.55220.62760.64500.55470.74870.78750.71500.75200.7441
    CTC0.37750.45930.17980.83860.19720.39890.46790.48570.29400.78140.4514
    CCS0.41410.41960.40290.30090.05750.02040.83590.35780.26140.70540.3711
    MGN0.78030.77280.61430.84860.84090.84640.85690.83480.87990.87660.8700
    CN0.85660.87620.81600.89460.90640.89170.91350.91240.93510.81740.9168
    LCNI0.90570.90370.81600.92040.94430.90100.94850.95630.96290.80950.9574
    ICQD0.85420.84010.60060.84140.87450.89590.88150.89730.91080.85960.9060
    CHA0.87750.86820.82100.88480.83100.89900.89250.88230.85230.80940.8768
    SSR0.94610.94740.88850.93530.95670.93260.95760.96680.96050.91780.9580
    CSIQAWGN0.89740.93800.84310.95750.95410.94410.93590.94400.96700.93290.9652
    JPEG0.95430.96620.94120.97050.96150.95020.96640.96320.96890.95640.9573
    JP2 K0.96050.96830.92520.96720.97520.96430.97040.96480.97770.96300.9545
    AGPN0.89240.90590.82610.95110.95700.93570.93700.93870.95160.95170.9492
    GB0.96080.97820.95270.97450.96020.96430.97290.95890.97890.96640.9574
    CTC0.79250.95390.48730.93450.92070.95270.94380.93540.93240.93990.9273
    LIVEJP2 K0.96140.96490.91130.96960.96760.93230.97240.97000.97190.96080.9822
    JPEG0.97640.98080.94680.98460.97640.95840.98400.97780.98360.96740.9836
    AWGN0.96940.96670.93820.98580.98440.97990.97160.97740.98090.94570.9837
    GB0.95170.97200.95840.97280.94650.90660.97080.95180.96620.95610.9641
    FF0.95560.94420.96290.96500.95690.92370.95190.94020.95920.96270.9633
    下载: 导出CSV

    表 6  计算复杂度对比

    Table 6.  Time cost comparisons.

    IQA模型运行时间/sIQA模型运行时间/s
    PSNR0.0186RFSIM0.1043
    SSIM0.0892FSIMc0.3505
    IW-SSIM0.6424GSM0.1018
    IFC1.1554CVSS0.0558
    VIF1.1825MPCC
    MAD2.7711CAGS0.4814
    下载: 导出CSV
  • [1]

    姚军财, 刘贵忠 2018 物理学报 67 108702Google Scholar

    Yao J C, Liu G Z 2018 Acta Phys. Sin. 67 108702Google Scholar

    [2]

    Athar S, Wang Z 2019 IEEE Access 7 140030Google Scholar

    [3]

    Lin W S, Kuo C C J 2011 J. Vis. Commun. Image R. 22 297Google Scholar

    [4]

    Chang H W, Zhang Q W, Wu Q G, Gan Y 2015 Neurocomputing 151 1142Google Scholar

    [5]

    Wang Z, Bovik A C, Sheikh H R, Simoncelli E P 2004 IEEE Trans. Image Process. 13 600Google Scholar

    [6]

    Sheikh H R, Bovik A C 2006 IEEE Trans. Image Process. 15 430Google Scholar

    [7]

    Sheikh H R, Bovik A C, de Veciana G 2005 IEEE Trans. Image Process. 14 2117Google Scholar

    [8]

    Wang Z, Simoncelli E P, Bovik A C 2003 37th Asilomar Conference on Signals, Systems and Computer PacificGrove, CA, November 9−12, 2003 pp1398−1402

    [9]

    Wang Z, Li Q 2011 IEEE Trans. Image Process. 20 1185Google Scholar

    [10]

    Larson E C, Chandler D M 2010 J. Electron. Imaging 19 011006Google Scholar

    [11]

    Zhang L, Zhang L, Mou X Q 2010 IEEE International Conference on Image Processing Hong Kong, Peoples of China, September 26−29, 2010 pp321−324

    [12]

    Zhang L, Zhang L, Mou X Q, Zhang D 2011 IEEE Trans. Image Process. 20 2378Google Scholar

    [13]

    Liu A M, Lin W S, Narwaria M 2012 IEEE Trans. Image Process. 21 1500Google Scholar

    [14]

    Jia H Z, Zhang L, Wang T H 2018 IEEE Access 6 65885Google Scholar

    [15]

    姚军财, 申静 2020 物理学报 69 148702Google Scholar

    Yao J C, Shen J 2020 Acta Phys. Sin. 69 148702Google Scholar

    [16]

    Robertson A R 1990 Color Res. Appl. 15 167Google Scholar

    [17]

    Mahny M, Vaneycken L, Oosterlinck A 1994 Color Res. Appl. 19 105

    [18]

    Lee D, Plataniotis K N 2015 IEEE Trans. Image Process. 24 3950Google Scholar

    [19]

    Lee D, Plataniotis K N 2014 2014 International Conference on Acoustics, Speech and Signal Processing (ICASSP) Florence, Italy, May 4−9, 2014 pp166−170

    [20]

    Berns R S 2014 Color Res. Appl. 39 322Google Scholar

    [21]

    Zhang L, Shen Y, Li H Y 2014 IEEE Trans. Image Process. 23 4270Google Scholar

    [22]

    Jain R C, Kasturi R, Schunck B G 1995 Machine Vision (New York: McGraw-Hill) pp140–185

    [23]

    Sonka M, Hlavac V, Boyle R 2008 Image Processing, Analysis and Machine Vision (3rd Ed.) (Stanford: Cengage Learning) p77

    [24]

    Xue W F, Zhang L, Mou X Q, Bovik A C 2014 IEEE Trans. Image Process. 23 684Google Scholar

    [25]

    Kim D O, Han H S, Park R H 2010 IEEE Trans. Consum. Electr. 56 930Google Scholar

    [26]

    Nafchi H Z, Shahkolaei A, Hedjam R, Cheriet M 2016 IEEE Access 4 5579Google Scholar

    [27]

    Taguchi G, Yokoyama Y, Wu Y 1993 Taguchi Methods, Design of experiments (Dearbon, MI: ASI Press) pp59−63

    [28]

    Ponomarenko N, Jin L, Ieremeiev O, Lukin V, Egiazarian K, Astola J, Vozel B, Chehdi K, Carli M, Battisti F, Kuo C C J 2015 Signal Process. Image Commun. 30 57Google Scholar

    [29]

    Larson E C, Chandler D M http://vision.eng.shizuoka.ac.jp/mod/page/view.php?id=23[2020-7-13]

    [30]

    Sheikh H R, Sabir M F, Bovik A C 2006 IEEE Trans. Image Process. 15 3440Google Scholar

    [31]

    Ninassi A, Le Callet P, Autrusseau F 2006 Conference on Human Vision and Electronic Imaging Ⅺ San Jose, CA, USA, January 16–18, 2006 p1

    [32]

    Wang S Q, Gu K, Zeng K, Wang Z, Lin W S 2016 Proc. SPIE 6057 Comput. Graph. Appl. 38 47Google Scholar

    [33]

    Lin C H, Wu C C, Yang P H, Kuo T Y 2009 J. Disp. Technol. 5 323Google Scholar

    [34]

    Preiss J, Fernandes F, Urban P 2014 IEEE Trans. Image Process. 23 1366Google Scholar

  • [1] 赵丹, 王帅虎, 刘少刚, 崔进, 董立强. 磁流变液构成的类梯度结构振动传递特性. 物理学报, 2020, 69(9): 098301. doi: 10.7498/aps.69.20200326
    [2] 姚军财, 申静. 基于图像内容对比感知的图像质量客观评价. 物理学报, 2020, 69(14): 148702. doi: 10.7498/aps.69.20200335
    [3] 李吉, 刘伍明. 梯度磁场中自旋-轨道耦合旋转两分量玻色-爱因斯坦凝聚体的基态研究. 物理学报, 2018, 67(11): 110302. doi: 10.7498/aps.67.20180539
    [4] 姚军财, 刘贵忠. 基于图像内容视觉感知的图像质量客观评价方法. 物理学报, 2018, 67(10): 108702. doi: 10.7498/aps.67.20180168
    [5] 管义钧, 孙宏祥, 袁寿其, 葛勇, 夏建平. 近表面层黏性模量梯度变化的复合平板中激光热弹激发声表面波的传播特性. 物理学报, 2016, 65(22): 224201. doi: 10.7498/aps.65.224201
    [6] 周子超, 王小林, 陶汝茂, 张汉伟, 粟荣涛, 周朴, 许晓军. 高功率梯度掺杂增益光纤温度特性理论研究. 物理学报, 2016, 65(10): 104204. doi: 10.7498/aps.65.104204
    [7] 周先春, 汪美玲, 石兰芳, 周林锋, 吴琴. 基于梯度与曲率相结合的图像平滑模型的研究. 物理学报, 2015, 64(4): 044201. doi: 10.7498/aps.64.044201
    [8] 吴惠彬, 梅凤翔. 事件空间中完整力学系统的梯度表示. 物理学报, 2015, 64(23): 234501. doi: 10.7498/aps.64.234501
    [9] 周建华, 李栋华, 曾阳素, 朱鸿鹏. 梯度负折射率介质中高斯光束传输特性的研究. 物理学报, 2014, 63(10): 104205. doi: 10.7498/aps.63.104205
    [10] 刘岩, 张文明, 仲作阳, 彭志科, 孟光. 光梯度力驱动纳谐振器的非线性动力学特性研究. 物理学报, 2014, 63(2): 026201. doi: 10.7498/aps.63.026201
    [11] 侯明强, 龚自正, 徐坤博, 郑建东, 曹燕, 牛锦超. 密度梯度薄板超高速撞击特性的实验研究. 物理学报, 2014, 63(2): 024701. doi: 10.7498/aps.63.024701
    [12] 李震, 张锡文, 何枫. 基于速度梯度张量的四元分解对若干涡判据的评价. 物理学报, 2014, 63(5): 054704. doi: 10.7498/aps.63.054704
    [13] 石明珠, 许廷发, 梁炯, 李相民. 单幅模糊图像点扩散函数估计的梯度倒谱分析方法研究. 物理学报, 2013, 62(17): 174204. doi: 10.7498/aps.62.174204
    [14] 蔡志鹏, 杨文正, 唐伟东, 侯洵. 大梯度指数掺杂透射式GaAs光电阴极响应特性的理论分析. 物理学报, 2012, 61(18): 187901. doi: 10.7498/aps.61.187901
    [15] 楼智美, 梅凤翔. 力学系统的二阶梯度表示. 物理学报, 2012, 61(2): 024502. doi: 10.7498/aps.61.024502
    [16] 洪轲, 袁玲, 沈中华, 倪晓武. 利用Taylor展开法研究Lamb波在功能梯度材料中的传播特性. 物理学报, 2011, 60(10): 104303. doi: 10.7498/aps.60.104303
    [17] 冯友君, 林中校, 张蓉竹. 连续位相板均方根梯度对焦斑匀滑特性的影响. 物理学报, 2011, 60(10): 104202. doi: 10.7498/aps.60.104202
    [18] 鄂鹏, 段萍, 江滨浩, 刘辉, 魏立秋, 徐殿国. 磁场梯度对Hall推力器放电特性影响的实验研究. 物理学报, 2010, 59(10): 7182-7190. doi: 10.7498/aps.59.7182
    [19] 胡跃辉, 阴生毅, 陈光华, 吴越颖, 周小明, 周健儿, 王 青, 张文理. MWECR CVD等离子体系统梯度磁场对沉积a-Si:H薄膜特性研究. 物理学报, 2004, 53(7): 2263-2269. doi: 10.7498/aps.53.2263
    [20] 殷宗敏, 祝颂来. 锥形梯度折射率纤维的成像特性. 物理学报, 1981, 30(12): 1603-1608. doi: 10.7498/aps.30.1603
计量
  • 文章访问数:  3277
  • PDF下载量:  76
  • 被引次数: 0
出版历程
  • 收稿日期:  2020-05-19
  • 修回日期:  2020-07-12
  • 上网日期:  2020-11-09
  • 刊出日期:  2020-11-20

基于图像色貌和梯度特征的图像质量客观评价

  • 1. 复旦大学信息科学与工程学院, 光源与照明工程系, 上海 200433
  • 2. 复旦大学工程与应用技术研究院, 超越照明研究所, 上海 200433
  • 通信作者: 林燕丹, ydlin@fudan.edu.cn
    基金项目: 国家重点研发计划(批准号: 2017YFB0403700)资助的课题

摘要: 图像质量评价(IQA)方法需要考虑如何从主观视觉度量结果出发, 设计出符合该结果的客观图像质量评价方法, 应用到相关实际问题中. 本文从视觉感知特性出发, 量化色度和结构特征信息, 提出了基于色貌和梯度两个图像特征的图像质量客观评价模型. 两个色貌新指标(vividness和depth)是色度特征信息提取算子; 梯度算子用来提取结构特征信息. 其中, vividness相似图一方面作为特征提取算子计算失真图像局部质量分数, 另一方面作为图像全局权重系数反应每个像素的重要程度. 为了量化所提模型的主要参数, 根据通用模型性能评价指标, 使用Taguchi实验设计方法进行优化. 为了验证该模型的性能, 使用4个常用图像质量数据库中的94幅参考图像和4830幅失真图像进行对比测试, 从预测精度、计算复杂度和泛化性进行分析. 结果表明, 所提模型的精度PLCC值在4给数据库中最低实现0.8455, 最高可以达到0.9640, 综合性能优于10个典型和近期发表的图像质量评估(IQA)模型. 研究结果表明, 所提模型是有效的、可行的, 是一个性能优异的IQA模型.

English Abstract

    • 随着各种多媒体通信系统中彩色图像内容和成像设备的迅速发展, 传统的灰度传输方式被彩色传输所取代. 在这种转变下, 感知图像质量评估(image quality assessment, IQA)在众多的视觉数据处理应用中发挥了重要的作用, 特别是针对由于压缩和传输而产生的失真评价, 如模糊、块效应和白噪声等[1]. 在过去的几十年里, 人们设计了多种客观的IQA模型来评估图像质量[2]. 人眼视觉系统(human visual system, HVS)是一种理想的视觉信息接收系统, 也是用主观判断[3]评价图像质量最可靠的方法. 通常, 主观评价的结果由平均意见分数(mean opinion scores, MOS)和差异意见分数(differential mean opinion scores, DMOS)表示, 且这两种主观评分是图像质量客观评价性能的评估依据.

      目前, 典型的图像客观质量评价方法主要有: 1) 基于数学统计的方法, 如MSE (mean squared error)和PSNR (peak signal to noise ratio)等; 2) 基于HVS感知特性的方法, 如SSIM (structural similarity), IFC (information fidelity criterion), FSIM (feature similarity)等; 3) 基于机器学习的方法[4], 该方法计算精度较高, 但需要长时间样本训练, 且计算结果过度依赖训练样本, 难以应用到实际问题中. 上述基于数学统计的方法拥有较好的运行效率, 但准确性较基于HVS感知特性的方法存在不足. 在基于HVS感知特性的方法中, 具有代表性的SSIM[5]方法假设人类对于一个场景的视觉感知可以用提取结构信息进行表征, 其主要提取信息包括亮度、对比度和结构. 该方法因其设计思路的新颖性和特征信息的计算方式, 为后续相关研究提供很多启发和思路. 这种基于SSIM计算方式的图像质量评价模型也被叫做全参考图像质量评价模型. Sheikh和Bovik[6]提出IFC[7]及其衍生方法VIF (visual information fidelity), 这两个方法通过原始图像和失真图像的交互信息保真度进行比较和计算, 虽然其性能较SSIM有所提升, 但计算效率较差, 难以广泛应用. 基于SSIM模型, 其他研究者又提出很多扩展模型. 其中具有代表性的模型有: 加入HVS多尺度特性的MS-SSIM(multi-scale SSIM)方法[8]; 根据图像全局信息分布, 通过信息加权的方式得到的IW-SSIM(information content weighted SSIM)方法[9]. Larson和Chandler[10]基于最明显失真统计提出MAD(most apparent distortion algorithm)方法, 该方法的不足是计算复杂性较高. Zhang等[11,12]针对人类视觉系统对图像的理解主要依赖于图像的底层特征的特点, 提出了两种新的基于特征相似度的全参考图像质量评价指标RFSIM (riesz transforms based feature similarity index)和FSIM (feature similarity). 在FSIM中, 作者针对灰度图像将相位一致性(phase congruency)和梯度幅值(gradient magnitude)结合, 并使用权重系数获得单位质量分数; 此外, 为解决彩色图像评价问题, 加入色度算子, 引申出FSIMc模型. 基于梯度结果, Liu等[13]提出GSM (gradient similarity metric)方法. 上述提到的RFSIM, FSIMc和GSM方法的精度较好, 但计算泛化性能欠佳. 近年, 基于对比度和视觉显著性, Jia等[14]提出CVSS (contrast and visual saliency similarity)方法, 该方法评价灰度图像的性能较好, 但是针对日常生活在的彩色图像, 性能仍有不足. Yao等[15]基于图像内容对比度感知特性, 提出MPCC (IQA model based on the perception of the contrast of image contents)方法.

      一般来说, 上述较好的模型在空间和频率域描述了结构信息、亮度信息、对比度信息和颜色信息. 通过上述分析, 可以发现目前的IQA模型在设计方法、复杂性和泛化性能仍有不足. 所以, 本文选择基于HVS感知特性构建图像质量客观评价模型, 以基本物理理论为基础, 构建具有较高的精度、泛化性和较低计算复杂度模型. 目前常见的全参考模型在进行特征相似计算时(如前文中提到的IW-SSIM, RFSIM, FSIMc, GSM、CVSS等模型), 多参照SSIM的计算方式, 本文也是参考SSIM进行相似计算全参考图像质量评价模型.

      通常情况下, 彩色图像的质量可以通过在单个RGB通道上使用灰度模型, 然后连接通道分数来评估. 由于这种方法的精度有限, 因此需要提出更精细的利用颜色感知特性的模型. 此外, 彩色图像的质量可以用类似于比色法的方法来评估. 均匀的颜色空间(如CIELAB)可以描述成对颜色之间感知到的颜色差异[16,17]. CIELAB中的圆柱极坐标与刺激的颜色属性相关. 因此, 利用该公式可以更好地在像素级表征彩色图像的感知失真. 虽然这些公式对比较均匀色块很有用, 但需要通过优化, 与复杂的真实图像数据保持一致. 随着人眼对色彩表象的感知能力的不断提高, 一些新的模型被提出, 并利用相似计算公式对这些模型进行修正. Lee和Plataniotis[18,19]提出了基于正常三通道色貌指标的IQA方法(即亮度、色调和色度), 从而获得较好的彩色图像评价性能. 因为色貌指标可以代表彩色图像在HVS感知方式下的颜色偏差, 所以为了获得与主观评价更高的一致性, 可以考虑选择色貌指标评价图像的色彩信息.

      前文已提到多种图像特征信息, 为了获得图像的质量分数, 需要选择合适的特征. 本文提出了一种新的基于相似性的IQA模型, 该模型主要提取图像的色彩信息和结构信息两个部分. 结合HVS对于色彩感知和图像轮廓特征的机理, 选择色貌和梯度两个指标提取上述两个特征信息, 并量化得到对应的图像质量分数. 目前, 彩色图像已应用于很多领域, 所以色彩信息需要在图像质量评价时重点考虑. 色貌新指标(vividness和depth)[20]考虑色度和亮度的同步变化, 更符合人眼视觉感知的机理, 可以体现图像质量的色彩特征变化. 除此之外, 选择vividness指标作为所提模型的权重系数, 进一步突出所提模型对于色彩信息的重视. 梯度是目前常用的图像结构特征的提取算子, 作为补充特征, 可以完善所提模型对于图像质量的评价. 通过仿真测试, 与其他典型的模型相比, 所提模型具有更低的复杂度和更好的预测效果.

    • 本节提出基于色貌和梯度相似(color appearance and gradient similarity, CAGS)方法来量化彩色图像的感知视觉质量. 该模型是具有通用性, 对于常见的彩色和灰度图像始终表现良好的评价效果. 该模型的输入图像是两个具有相同空间分辨率的RGB图像(XY), 分别称为原始图像和失真图像. 同时, 它们在尺寸上匹配并且正确对齐. 输出质量评分记为CAGS(X, Y), 其范围在0到1之间(当两幅图像完全相同时, 1表示最佳质量评分).

      该模型包含两个相似图, 一个是利用CIELAB颜色空间中的色貌相似图来测量颜色失真, 色貌分布图可以在像素级上表示两幅图像之间的颜色差异, 与HVS感知更加兼容[20]. 对于结构失真, 由于梯度具有的优越性[12,13], 所以可以利用梯度推导出另一个相似图. 最后, 基于文献[12,21]提到的权重系数方法, 将上述两个相似图进行合并和池化.

    • 为了更好地表征HVS感知到的图像色貌, 可以将原始的RGB图像转化为更符合人类视觉的颜色空间, 使用CIELAB色空间. 由于CIELAB色空间和孟塞尔系统之间紧密联系, 同时分离成亮度(L*)和色度(a*, b*$C_{ab}^*$, $ H_{ab}^* $), 限制了CIELAB在实际应中描述颜色在明度和色度共变时的有效性, 例如在艺术、设计、比较着色剂效果和彩色图像评估等领域. 因此, 两个新的CIELAB色貌指标被提出, 即vividness和depth, 来扩展CIELAB作为色貌变量的有效性, 如图1所示[20]. 从图1中可以发现, 为了区分两个颜色, 需要对两个颜色的对应参数进行比较, 上述两个色貌指标除了可以表征亮度和色度特性以外, 还可以作为色貌坐标, 计算颜色差别. 经过色空间从RGB到CIELAB变换后, X的每个像素包含三个颜色分量: 亮度通道L*、红绿通道a*和蓝黄通道b*, 并通过(1)式和(2)式计算得到vividness($ V_{ab}^* $)图和depth($ D_{ab}^* $)图.

      图  1  颜色1和2的vividness($ V_{ab}^* $)和depth($ D_{ab}^* $)维度表征, 线段长度定义对应属性[20]

      Figure 1.  Dimensions of vividness, $ V_{ab}^* $, and depth, $ D_{ab}^* $ for colors 1 and 2. Line lengths define each attribute[20].

      $V_{ab}^* \!=\! \sqrt{(L^*)^2 \!+\! (a^*)^2 \!+\! (b^* )^2} \!=\! \sqrt{(L^*)^2 \!+\! (C_{ab}^*)^2}, $

      $\begin{split} D_{ab}^ * =\;& \sqrt {{{\left( {100 - {L^ * }} \right)}^2} + {{\left( {{a^ * }} \right)}^2} + {{\left( {{b^ * }} \right)}^2}} \\ =\;& \sqrt {{{\left( {100 - {L^ * }} \right)}^2} + {{\left( {C_{ab}^ * } \right)}^2}} .\end{split}$

      为了量化颜色分量中的视觉失真, 使用了两个色度描述符: vividness相似图SV和depth相似图SD. 根据(1)式和(2)式, 原始图像X和失真图像Y的局部色貌分布图由V1D1, V2D2表示. 图2是一个选自LIVE数据库的例子, 图2(a)为参考图像, 图2(b)为高斯模糊失真后的图像. 图2(c)图2(d)图2(e)图2(f)分别是对应参考图像和失真图像的V1, V2, D1D2图像. 然后, 根据SSIM相似计算的方式将被比较的两幅图像的色貌相似图定义为

      图  2  从LIVE数据库中提取的典型图像 (a)为参考图像; (b)为高斯模糊畸变类型的失真图像; (c)和(e)分别是参考图像的Vividness和Depth图; (d)和(f)分别是失真图像的Vividness和Depth图; (g)是色貌相似图; (h)为梯度相似图

      Figure 2.  Typical images extracted from LIVE: (a) The reference image;(b) the distorted vision of it by Gaussian blur distortion type; (c) and (e) are the vividness and depth map of the reference image, respectively; (d) and (f) are the vividness and depth map of the distorted image; (g) the color appearance similarity map by connecting the vividness and depth similarity map; (h) the gradient similarity map.

      ${S_V} = \frac{{2{V_1} \cdot {V_2} + {K_V}}}{{V_1^2 + V_2^2 + {K_V}}}, $

      ${S_D} = \frac{{2{D_1} \cdot {D_2} + {K_D}}}{{D_1^2 + D_2^2 + {K_D}}}, $

      其中KVKD都是常量, 增加模型的稳定性, 保证分母不为0 [5]. 将vividness相似图SV和depth相似图SD通过简单幂函数相乘的方式结合, 可以得到原始图像X和失真图像Y的色貌相似图SCA, 如下式所示:

      ${S_{{\rm{CA}}}} = {\left( {{S_V}} \right)^\alpha } \cdot {S_D}, $

      其中α表征两个色貌指标在色貌相似计算中的相对权重, 区间是[0, 1]. 较大的α值, 表示vividness在色貌相似计算中的相对权重越高. 为了说明色貌指标的有效性, 图2(g)是连接vividness相似图和depth相似图的色貌相似图. 图2(g)中颜色较深的点, 表征该区域的图像色彩差别越大. 从图2(g)中可以清楚地看到, 色貌相似图可以有效表征失真图像与参考图像之间的差别.

    • 目前, 有几种不同的算子可以计算图像梯度, 如Prewitt算子[22]、Sobel算子[22]、Roberts算子[23]和Scharr算子[23]. 离散域梯度幅值的计算通常是基于上述算子, 并利用差值表示图像函数. 图像X的垂直梯度Gy和水平梯度Gx计算方式是利用卷积得到: $G_x=h_x \ast X$$G_y={{h}}_{{y}} * {{X}}$(参见(6)式和(7)式), 其中hxhy分别为水平和垂直梯度算子, *表示卷积. 则梯度的定义是$G\left(x\right)= \sqrt{{G}_{x}^{2}+{G}_{y}^{2}}$. 在提出的IQA模型中, 这些计算方式的执行效果是相同的. 梯度表征结构信息的原理是通过梯度算子的卷积处理图像, 保留包含显著边缘区域的信息, 去除平滑区域的信息.

      ${G_x} = \frac{1}{{16}}\left[ {\begin{array}{*{20}{c}} 3&0&{ - 3} \\ {10}&0&{ - 10} \\ 3&0&{ - 3} \end{array}} \right] * X, $

      ${G_y} = \frac{1}{{16}}\left[ {\begin{array}{*{20}{c}} 3&{{\rm{1}}0}&3 \\ 0&0&0 \\ { - 3}&{ - {\rm{1}}0}&{ - 3} \end{array}} \right] * X.$

      在本文中, 经过前期梯度算子的比较, 发现Scharr在本文模型中可以更大程度地提取结构信息, 获得较好的结果. 因此, Scharr算子被选择用来计算参考图像和失真图像CIELAB色空间亮度(L*)通道的梯度(G1G2). 通过这两个梯度, 可以得到两个图像的梯度相似图SG, 其计算公式如下所示:

      ${S_G} = \frac{{2{G_1} \cdot {G_2} + {K_G}}}{{G_1^2 + G_2^2 + {K_G}}}, $

      其中参数KG为控制数值稳定性的常数. 梯度相似图(SG)在文献[2426]中被广泛应用, 并研究了它在图像失真测量中的作用. 如图2(h)所示, 图中颜色较深的点, 表征该区域的图像结构差别越大. 因此, 梯度相似图是对HVS结构信息的一种有效表征.

    • 根据前文提取的色貌相似和梯度相似图, 在IQA任务中定义一个新的模型—色貌和梯度相似指标(color appearance and gradient Similarity index, CAGS), 其程序代码请参见https://github.com/AlAlien/CAGS, 计算公式如下所示:

      ${\rm{CAGS}} = \frac{{\displaystyle\sum\nolimits_\varOmega {{S_G} \cdot {S_{CA}} \cdot {V_m}} }}{{\displaystyle\sum\nolimits_\varOmega {{V_m}} }}, $

      其中Ω表示空间域; Vm (Vm = max (V1, V2))用于表征两个图像的局部重要性权重.

      人们普遍认为, 不同的位置对HVS图像质量的视觉感知有不同的贡献, 因此, 在得到最终质量分数时可以考虑视觉系统的注视点. 由于人类视觉皮层对亮度和色度很敏感, 所以某个位置的vividness值可以反映出它是一个可感知的重要点的权重大小. 由于上述原因, 在提出的模型中选择色貌分布图(Vm)来描述局部区域的视觉重要性. CAGS的计算过程如图3所示. 本文所提模型, 以色貌特征为基础, 结合梯度特征, 表征图像质量. 色貌特征处理图像颜色信息差别, 梯度特征计算图像结构信息的不同, 通过颜色信息和结构信息的综合计算, 得到图像的客观评分.

      图  3  本文提出的IQA模型CAGS的计算过程

      Figure 3.  Illustration for the computational process of the proposed IQA model CAGS.

      在本文中, KV, KD, KG均为常数, 可以方便地应用于所有数据库. 此外, α为了应用于所有数据库也需要确定. 在以往的研究中, 试错法是处理这类问题的一种常用方法, 但在时间和消耗上都不现实. 近年来, Taguchi等[27]实验设计方法被广泛应用于解决多参数寻优问题. 后续, 将使用Taguchi方法优化模型中的相关参数.

    • 在我们的研究中, 选择4个公共数据库进行模型验证和比较, 即TID2013[28], CSIQ[29], LIVE[30]和IVC[31], 表1列出了上述每个数据库的基本信息. 这4个数据库是IQA研究中最常用的集合, 涵盖了现实应用中常见的各种失真. 它们用主观的评价来表征图像质量(MOS或DMOS), 可以作为设计的模型进行合理的基准测试. 上述数据库中的失真图像是从一组原始图像处理得到的, 这些原始图像反映了足够的颜色复杂性和边缘/纹理细节的多样性, 包括人类、自然场景和人造物体的图片.

      数据库原始图像数量失真图像数量失真类型观察者
      TID201325300024971
      CSIQ30866635
      LIVE297795161
      IVC10185415

      表 1  IQA数据库基本信息

      Table 1.  Benchmark test databases for IQA.

      为了评估一个模型是否能够预测人类观察者的感知, 将使用客观评价模型计算出的图像质量分数与观察者所评定的值进行拟合. IQA模型常用的四个评价标准是: Spearman秩序相关系数(Spearman rank-order correlation coefficient, SROCC)、Pearson线性相关系数(Pearson linear correlation coefficient, PLCC)、Kendall秩序相关系数(Kendall rank-order correlation coefficient, KROCC)和均方根误差(root mean squared error, RMSE)[2,32].

      为了计算PLCC和RMSE指标, 采用logistic回归得到与主观判断相同的量表值:

      $p\left( s \right) = {\beta _1}\left[ {\frac{1}{2} - \frac{1}{{1 + \exp \left( {{\beta _2}\left( {s - {\beta _3}} \right)} \right)}}} \right] + {\beta _4}s + {\beta _5}, $

      其中β1, ···, β5都是拟合参数, s代表原始IQA分数, p(s)是回归后的IQA分数[30].

    • Taguchi方法是Taguchi和Konishi共同开发的一种有效的实验设计工具[33]. 根据前文的分析, 为了适用于所有数据库, KV, KD, KGα是CAGS模型优化的主要变量参数. 根据相关研究, 将各影响因素的水准数及各水准的值选取在适当的范围内, 如表2所列. 对于每个参数, 都选择了3个值. 两个色貌相似度对应参数应该确定相同的水准值, 这些值的选择基于文献[34]. 为了得到梯度相似图的最佳相关系数, 可以在[0, 100]中设置KG[26], 因此定义水准值为10, 50和100. 相对权重参数α, 应该限制在[0, 1], 所以选择0.1, 0.5, 1作为水准值.

      代号参数表述水准数水准一水准二水准三
      AKV30.0020.020.2
      BKD30.0020.020.2
      CKG31050100
      Dα30.10.51

      表 2  变量参数及其控制水准

      Table 2.  Influence factors and level setting for CAGS.

      选取参数和水准后, 在直交表中进行组合实验, 如表3所列. 采用试错法进行实验需要34次, 而利用Taguchi方法设计实验只需进行9次即可, 大大减少了实验时间. 直交表配置为L9(34)型. 选择IVC数据库作为优化参数的参考集, 表征量化质量特征的SROCC, RMSE值及其S/N(signal to noise)值均包含在表3中. 较大的S/N值表征其对应的水准具有较好评价效果. 对于SROCC来说, 性能具有望大性, 即数值越大表征效果越好. 因此, SROCC的S/N值(ε1)可以根据(11)式计算. 相反, RMSE应该越少越好. 因此, RMSE的S/N值(ε2)可以根据(12)式计算.

      实验序号ABCDSROCCSROCC的S/NRMSERMSE的S/N
      111110.9300–0.63030.41137.7168
      212220.9192–0.73180.45336.8723
      313330.9096–0.82300.48256.3301
      421230.9171–0.75170.45966.7524
      522310.9173–0.74980.46726.6099
      623120.9291–0.63880.41427.6558
      731320.9114–0.80580.47356.4936
      832130.9279–0.65000.41747.5890
      933210.9195–0.72900.44816.9725

      表 3  采用L9(34)直交表的实验设计及IVC数据库测试结果

      Table 3.  Design with a L9(34) orthogonal array for IVC database.

      ${\varepsilon _{\rm{1}}} = {\rm{ - 10}}\log \frac{{\displaystyle\sum\nolimits_{i = 1}^t {\left( {{{\rm{1}} / {{q_i}^2}}} \right)} }}{t}, $

      ${\varepsilon _{\rm{2}}} = {\rm{ - 10}}\log \frac{{\displaystyle\sum\nolimits_{i = 1}^t {\left( {{q_i}^2} \right)} }}{t}, $

      其中qi表示与第i次试验对应的SROCC和RMSE的值; t为每次试验的总数.

      特定的参数组合对SROCC和RMSE两个评价标准的影响可以通过计算该特定参数的水准三次实验相应的平均S/N值来评估. 不同水准值对应的S/N值可以在图4中清晰地识别出来, 其值越高表明该水准对应的评价效果越好.

      图  4  SROCC和RMSE对应的不同水准的S/N

      Figure 4.  S/N ratio of different levels for SROCC and RMSE.

      图4可以得到下述直观合理的结果. 例如, 较小的参数C值, 可以获得较大的S/N值; 同时因其对应的S/N值变化幅度最大, 表明其影响程度也是最大的. 对于其他3个参数, 最佳组合为A2-B2-D1. 对于参数C, 由于其影响程度最大, 需要将其进一步调整为更合适的值, 以达到更好的拟合程度.

      使用本文提出的CAGS方法, 通过计算四种数据库在不同KG下SROCC, PLCC和KROCC的加权平均值(根据每个数据库中失真图像的数量分配不同的权重)和直接平均值, 确定KG值, 如图5所示. 从图5中可获得最佳的KG值, 所以最终CAGS模型的最佳参数是KV = KD = 0.02, KG = 50, α = 0.1.

      图  5  不同KG值对模型性能的影响

      Figure 5.  Performance of different KG values.

    • 一个理想的IQA模型应该具有良好的性能, 并且在不同类型的失真情况下具有良好的一致性. 本节将所提出的模型与其他典型的模型进行了比较, 包括SSIM[5], IW-SSIM[9]、IFC[6], VIF[7], MAD[10], RFSIM[11], FSIMc[12]和GSM[13], 以及近年提出的方法CVSS(2018)[14]和MPCC(2020)[15]. 表4中, 4个数据库中每个评价指标对应最好的3个结果使用粗体突出显示. 此外, 根据Wang和Li[9], 4个数据库的SROCC, PLCC和KROCC结果的加权和直接平均值也如表4所列, 以评估整体性能. 每个数据库的权值是根据数据库中包含的失真图像的数量确定的.

      数据库SSIMIW-SSIMIFCVIFMADRFSIMFSIMCGSMCVSSMPCCProposed
      TID2013SROCC0.74170.77790.53890.67690.78070.77440.85100.79460.80690.84520.8316
      PLCC0.78950.83190.55380.77200.82670.83330.87690.84640.84060.86160.8445
      RMSE0.76080.68801.03220.78800.69750.68520.59590.66030.67150.62930.6639
      KROCC0.55880.59770.39390.51470.60350.59510.66650.62550.63310.6469
      CSIQSROCC0.87560.92130.76710.91950.94660.92950.93100.91080.95800.95690.9198
      PLCC0.86130.91440.83840.92770.95020.91790.91920.89640.95890.95860.9014
      RMSE0.13340.10630.14310.09800.08180.10420.10340.11640.07450.07470.1137
      KROCC0.69070.75290.58970.75370.79700.76450.76900.73740.81710.7487
      LIVESROCC0.94790.95670.92590.96360.96690.94010.95990.95610.96720.96600.9734
      PLCC0.94490.95220.92680.96040.96750.93540.95030.95120.96510.96220.9640
      RMSE8.94558.347310.26437.61376.90739.66427.19978.43277.15737.43978.3251
      KROCC0.79630.81750.75790.82820.84210.78160.83660.81500.84060.8658
      IVCSROCC0.90180.91250.89930.89640.91460.81920.92930.85600.88360.9195
      PLCC0.91190.92310.90930.90280.92100.83610.93920.86620.84380.9298
      RMSE0.49990.46860.50690.52390.47460.66840.41830.60880.65380.4483
      KROCC0.72230.73390.72020.71580.74060.64520.76360.66090.69570.7488
      权重平均SROCC0.80510.83760.65600.77500.84560.83060.88590.84380.86280.8737
      PLCC0.83210.86960.67860.83530.87520.86500.89870.87300.88200.8772
      KROCC0.62700.66620.50020.61580.68190.65750.71600.67750.70200.7044
      直接平均SROCC0.86680.89210.78280.86410.90220.86580.91780.87940.90390.9111
      PLCC0.87690.90540.80710.89070.91640.88070.92140.89010.90210.9099
      KROCC0.69200.72550.61540.70310.74580.69660.75890.70970.74660.7526

      表 4  对比不同IQA模型的4个数据库性能

      Table 4.  Performance comparison of IQA models on four databases.

      表4可以看出, 我们提出的模型对所有数据库的性能都较好. 特别是, CAGS模型在LIVE和IVC数据库的排名前三名. 对于TID2013, CAGS模型具有竞争性, 与前三的差距很小. 对于CSIQ, CAGS模型仅比前三模型表现稍差. 虽然MAD, CVSS和MPCC可以从CSIQ中得到最好的结果, 但是它们的性能对其他三个数据库不如我们提出的模型的性能. 此外, CAGS模型还是三个指标加权和直接平均值的前三名. 综上, 获得前三数量最多的模型是FSIM (16次), CAGS (15次)和CVSS(14次). 而且, 对于所有数据库的SROCC和PLCC值均大于0.8316, 所以可以认为CAGS模型既具有较高的性能, 又具有较好的泛化性. 特别的, 由于MPCC模型代码未开源, 相关数据有所缺失, 所以表4仅提供可查阅的MPCC相关数据. 但与MPCC模型性能的比较中可以发现, CAGS模型与MPCC模型的性能差距较小, 与当前最新的研究结果相比具有竞争性.

      为了更好地说明所提出的IQA模型在不同类型的失真情况下具有更好的性能, 使用TID2013数据库的散点图进行比较, 如图6所示. 从图6中可以看出, 与其他模型相比, CAGS模型的客观评分与主观评分之间存在着高度的相关性.

      图  6  基于TID2013数据库的主观MOS与IQA模型计算结果拟合对比 (a) IW-SSIM; (b) IFC; (c) VIF; (d) MAD; (e) RFSIM; (f) FSIMc; (g) GSM; (h) CVSS; (i) CAGS

      Figure 6.  Scatter plots of subjective MOS against scores calculated by IQA models’ prediction for TID2013 databases: (a) IW-SSIM; (b) IFC; (c) VIF; (d) MAD; (e) RFSIM; (f) FSIMc; (g) GSM; (h) CVSS; (i) CAGS.

      出现上述结果的原因主要有: 1) CAGS模型结合HVS特性, 同时提取色度信息和结构信息, 并利用权重系数表征局部重要性, 所以其较其他模型具有较好的性能和泛化性; 2) 在颜色信息提取方面, 考虑亮度和色度的协同变化, 提高了颜色信息提取的准确性, 更好的表征图像失真程度.

    • 一个稳定IQA模型需要产生良好的性能, 才能对每种失真类型进行一致的预测. 在本节中, 对每种失真类型的模型性能进行了对比, 结果如表5所列. 选择SROCC作为评价指标, 因为其他指标(PLCC, RMSE和KROCC)具有类似的效果. 由于IVC数据库中每种失真类型的失真图像的数量太少, 无法用统计的方式表达结果. 因此, 选取了三个主要数据库中的35组失真图像. 对于每个数据库和每种失真类型, 排名前三SROCC值的IQA模型的结果用粗体突出显示. 进一步, 对于最新MPCC模型, 与CAGS对比TID2013数据库PLCC的结果, 如图7所示.

      数据库失真类型SSIMIW-SSIMIFCVIFMADRFSIMFSIMCGSMCVSSMPCCProposed
      TID2013AGN0.86710.84380.66120.89940.88430.88780.91010.90640.94010.86660.9359
      ANC0.77260.75150.53520.82990.80190.84760.85370.81750.86390.81870.8653
      SCN0.85150.81670.66010.88350.89110.88250.89000.91580.90770.73960.9276
      MN0.77670.80200.69320.84500.73800.83680.80940.72930.77150.70320.7526
      HFN0.86340.85530.74060.89720.88760.91450.90940.88690.90970.89570.9159
      IN0.75030.72810.62080.85370.27690.90620.82510.79650.74570.67470.8361
      QN0.86570.84680.62820.78540.85140.89680.88070.88410.88690.79310.8718
      GB0.96680.97010.89070.96500.93190.96980.95510.96890.93480.92180.9614
      DEN0.92540.91520.77790.89110.92520.93590.93300.94320.94270.95100.9466
      JPEG0.92000.91870.83570.91920.92170.93980.93390.92840.95210.89640.9585
      JP2 K0.94680.95060.90780.95160.95110.95180.95890.96020.95870.91600.9620
      JPTE0.84930.83880.74250.84090.82830.83120.86100.85120.86130.85710.8644
      J2 TE0.88280.86560.77690.87610.87880.90610.89190.91820.88510.84090.9250
      NEPN0.78210.80110.57370.77200.83150.77050.79370.81300.82010.77530.7833
      Block0.57200.37170.24140.53060.28120.03390.55320.64180.51520.53960.6015
      MS0.77520.78330.55220.62760.64500.55470.74870.78750.71500.75200.7441
      CTC0.37750.45930.17980.83860.19720.39890.46790.48570.29400.78140.4514
      CCS0.41410.41960.40290.30090.05750.02040.83590.35780.26140.70540.3711
      MGN0.78030.77280.61430.84860.84090.84640.85690.83480.87990.87660.8700
      CN0.85660.87620.81600.89460.90640.89170.91350.91240.93510.81740.9168
      LCNI0.90570.90370.81600.92040.94430.90100.94850.95630.96290.80950.9574
      ICQD0.85420.84010.60060.84140.87450.89590.88150.89730.91080.85960.9060
      CHA0.87750.86820.82100.88480.83100.89900.89250.88230.85230.80940.8768
      SSR0.94610.94740.88850.93530.95670.93260.95760.96680.96050.91780.9580
      CSIQAWGN0.89740.93800.84310.95750.95410.94410.93590.94400.96700.93290.9652
      JPEG0.95430.96620.94120.97050.96150.95020.96640.96320.96890.95640.9573
      JP2 K0.96050.96830.92520.96720.97520.96430.97040.96480.97770.96300.9545
      AGPN0.89240.90590.82610.95110.95700.93570.93700.93870.95160.95170.9492
      GB0.96080.97820.95270.97450.96020.96430.97290.95890.97890.96640.9574
      CTC0.79250.95390.48730.93450.92070.95270.94380.93540.93240.93990.9273
      LIVEJP2 K0.96140.96490.91130.96960.96760.93230.97240.97000.97190.96080.9822
      JPEG0.97640.98080.94680.98460.97640.95840.98400.97780.98360.96740.9836
      AWGN0.96940.96670.93820.98580.98440.97990.97160.97740.98090.94570.9837
      GB0.95170.97200.95840.97280.94650.90660.97080.95180.96620.95610.9641
      FF0.95560.94420.96290.96500.95690.92370.95190.94020.95920.96270.9633

      表 5  IQA模型的不同失真类型SROCC值对比

      Table 5.  SROCC values of IQA models for different types of distortions.

      图  7  CAGS与MPCC在TID2013数据库种不同失真类型PLCC值对比

      Figure 7.  PLCC comparison of different distortion types between CAGS and MPCC on TID2013.

      对比分析表5图7中不同模型对于不同失真类型的失真图像评价结果, 可得: 1) CAGS模型与其他典型IQA模型相比具有明显的统计优势, 总体效果最好. 特别是, CAGS模型在TID2013和LIVE数据库的排名前三的数量较多. 而对于CSIQ, CAGS模型具有竞争性, 与前三的差距很小. 获得前三数量最多的模型是CAGS (21次), CVSS (19次)和FSIM (14次). 2) 对于35种失真类型, 每个模型的评价结果各有优势, 其中SROCC值大于0.95的数量最多模型是CAGS(14次)和CVSS(14次). 对于上述两个模型, 其最小SROCC值分别是0.3711和0.2614, 且SROCC值小于0.5都是2个类型(CTC和CCS). 所以, CAGS模型的波动程度更小, 性能更加稳定, 具有较好的泛化性. (3)对比CAGS和MPCC模型, SROCC值排名前三次数分别是21次和6次; SROCC值大于0.95次数分别是14次和9次; 在TID2013数据库不同失真类型的PLCC值, 在24种失真类型中, CAGS在15种失真类型中具有较高的精度; CAGS和MPCC的最小SROCC值分别是0.3711和0.5396; 对比结果表明CAGS比最新的MPCC模型具有明显的精度优势, 而MPCC具有更好的泛化性. 综上可以得出结论, 与其他IQA模型相比, CAGS模型预测的客观评分与主观评价高度相关.

      通过以上对于不同失真类型的图像质量评价精度的对比分析, 表明CAGS模型在不同数据库中和在不同失真类型中都具有较好的精度和泛化性.

    • IQA模型的运行效率也是一个重要的考虑因素. 使用2.5 GHz Intel Core i5 CPU和8 G RAM的型号电脑比较不同模型的运行时间, 软件平台为MATLAB R2013b. 表6列出了每个模型用于比较一对彩色图像的时间, 分辨率为512 × 512(选自IVC数据库). 由此表6结果可知, CGGS模型具有适中的计算复杂度. 具体来说, 它比一些具有良好预测性能的现代IQA模型运行得更快, 如IW-SSIM, IFC, VIF和MAD. 由于CAGS模型仅包含色度信息和结构信息两个方面的内容, 即可有效评价图像质量, 同时无需循环计算, 所以CAGS模型计算复杂度较低.

      IQA模型运行时间/sIQA模型运行时间/s
      PSNR0.0186RFSIM0.1043
      SSIM0.0892FSIMc0.3505
      IW-SSIM0.6424GSM0.1018
      IFC1.1554CVSS0.0558
      VIF1.1825MPCC
      MAD2.7711CAGS0.4814

      表 6  计算复杂度对比

      Table 6.  Time cost comparisons.

    • 我们提出了一种新颖且性能良好的IQA模型, 即CAGS模型. 该模型由色貌相似图和梯度相似图组成, 分别表征了颜色失真和结构失真. 其中, 色貌相似图由vividness和depth两部分组成, 这两部分是表征颜色特征的两个新指标. 同时, 选取vividness图作为权重系数, 定义局部图像的重要性. 最后, 根据权重关系将上述两个相似图合并得到所提模型. 模型中的主要参数通过Taguchi方法确定, 使用该方法可大大减少实验时间. 为了证明所提出的模型的优异性能, 使用4个常用的IQA数据库共94幅参考图像和4830幅失真图像进行测试, 与另外10个最典型的或被近期发表的IQA模型的结果进行了比较. 结果表明, CAGS模型的精度PLCC在4给数据库中最低实现0.8455, 最高可以达到0.9640, 综合性能优于其他IQA模型. 与其他计算复杂度适中的模型相比, CAGS模型具有更好的预测精度和泛化性. 未来, 我们将进一步优化模型, 提升预测精度和泛化性能.

参考文献 (34)

目录

    /

    返回文章
    返回