基于多相关HMT模型的DT CWT域数字水印算法

王向阳 牛盼盼 杨红颖 李丽

Wang Xiang-Yang, Niu Pan-Pan, Yang Hong-Ying, Li Li. A blind watermark decoder in DT CWT domain using Weibull distribution-based vector HMT model. Acta Automatica Sinica, 2021, 47(12): 2857−2869 doi: 10.16383/j.aas.c190075
Citation: Wang Xiang-Yang, Niu Pan-Pan, Yang Hong-Ying, Li Li. A blind watermark decoder in DT CWT domain using Weibull distribution-based vector HMT model. Acta Automatica Sinica, 2021, 47(12): 2857−2869 doi: 10.16383/j.aas.c190075

基于多相关HMT模型的DT CWT域数字水印算法

doi: 10.16383/j.aas.c190075
基金项目: 国家自然科学基金(61472171, 61701212), 中国博士后科学基金(2018T110220), 辽宁省教育厅科学研究经费项目(面上项目) (LJKZ0985), 辽宁省自然科学基金(2019-ZD-0468)资助

    王向阳:辽宁师范大学计算机科学与技术学院教授. 主要研究方向为网络信息安全与智能多媒体计算. 本文通信作者. E-mail: wxy37@126.com

    牛盼盼:博士, 辽宁师范大学计算机与信息技术学院副教授. 主要研究方向为网络信息安全与图像处理. E-mail: niupanpan3333@163.com

    杨红颖:辽宁师范大学计算机科学与技术学院教授. 主要研究方向为多媒体信息安全与图像处理. E-mail: yhy65@126.com

    李丽:辽宁师范大学计算机科学与技术学院硕士研究生. 主要研究方向为信息隐藏与数字水印. E-mail: workprocess0003@163.com

A Blind Watermark Decoder in DT CWT Domain Using Weibull Distribution-Based Vector HMT Model

Funds: Supported by National Natural Science Foundation of China (61472171, 61701212), Project Funded by China Postdoctoral Science Foundation (2018T110220), Scientific Research Project of Liaoning Provincial Education Department(LJKZ0985), and Natural Science Foundation of Liaoning Province (2019-ZD-0468)
    Author Bio:

    WANG Xiang-Yang Professor at the Multimedia and Information Security Laboratory, School of Computer and Information Technology, Liaoning Normal University. His current research interest covers network information security, and intelligent multimedia computing. Corresponding author of this paper

    NIU Pan-Pan Ph.D., associate professor at the School of Computer and Information Technology, Liaoning Normal University. Her research interest covers network information security and image processing

    YANG Hong-Ying Professor at the School of Computer and Information Technology, Liaoning Normal University. Her current research interest covers multimedia information security and image processing

    LI Li Master student at the School of Computer and Information Technology, Liaoning Normal University. Her current research interest covers information hiding and digital watermarking

  • 摘要: 本文以双树复数小波变换(Dual-tree complex wavelet transform, DT CWT)及隐马尔科夫树(Hidden Markov tree, HMT)理论为基础, 提出了一种基于Weibull向量HMT模型的DT CWT域数字音频盲水印算法. 原始数字音频首先进行DT CWT, 然后利用局部信息熵刻画音频内容特征并据此确定出重要DT CWT系数段, 进而将水印信息乘性嵌入到重要DT CWT高频系数幅值内. 水印检测时, 首先根据DT CWT系数幅值的边缘分布及系数间的多种相关性(包括子带内、尺度间、分解树间等相关性), 构造出Weibull混合向量HMT统计模型, 并估计出其统计模型参数; 然后, 利用局部最大势能(Locally most powerful, LMP)检验理论构造出局部最优检测器(Locally optimum decoder, LOD)以盲提取水印信息. 仿真实验结果表明, 本文算法可以较好地获得不可感知性、鲁棒性、水印容量之间的良好平衡, 其总体性能优于现有同类音频水印算法.
    1)  收稿日期 2019-01-30 录用日期 2019-08-08 Manuscript received January 30, 2019; accepted August 8, 2019 国家自然科学基金 (61472171, 61701212), 中国博士后科学基金(2018T110220), 辽宁省教育厅科学研究经费项目 (面上项目) (LJKZ0985), 辽宁省自然科学基金 (2019-ZD-0468) 资助 Supported by National Natural Science Foundation of China (61472171, 61701212), Project Funded by China Postdoctoral Science Foundation (2018T110220), Scientific Research Project of Liaoning Provincial Education Department (LJKZ0985), and Natural Science Foundation of Liaoning Province (2019-ZD-0468) 本文责任编委 刘成林 Recommended by Associate Editor LIU Cheng-Lin 1. 辽宁师范大学计算机与信息技术学院 大连 116029 1. School of Computer and Information Technology, Liaoning
    2)  Normal University, Dalian 116029
  • 图  1  DT CWT域系数幅值的子带内、尺度间、分解树间Chi-plot图

    Fig.  1  Chi-plot to illustrate the different degrees of dependence between intraband, interscale and dual-tree, DT CWT coefficient pairs

    图  2  DT CWT域向量HMT模型

    Fig.  2  Vector HMT model in DT CWT domain

    图  3  两种数字水印检测器(LOD和ML)的检测响应结果

    Fig.  3  The test results of LOD watermark detector and ML watermark detector under various attacks

    图  4  原始音频、含水印音频和差值音频波形图

    Fig.  4  The waveform of original audio, watermarked audio, and difference audio

    图  5  本文算法的鲁棒性能测试结果

    Fig.  5  The watermark detection results for various attacks

    表  1  不同系数段长度下整个水印系统的工作性能 (水印容量为1 024位)

    Table  1  Performance of the watermarking system in different coefficient lengths (watermark capacity is 1 024 bits)

    DT CWT系数段长度 平均PSNR (dB) 平均BER (%) 平均水印嵌入时间 (s) 平均水印提取时间 (s)
    40 48.45 0.29 0.45 8.42
    50 47.96 0.09 0.62 9.57
    60 47.28 0.00 0.71 10.67
    70 46.34 0.00 1.21 11.53
    表  2  不同水印容量下整个水印系统的工作性能(局部重要系数段长度为60)

    Table  2  Performance of the watermarking system in different watermark capacities (coefficient length is 60)

    水印容量 (bit) PSNR (dB) BER (%) 水印嵌入时间 (s) 水印提取时间 (s)
    8 × 8 49.23 0.00 0.47 9.53
    16 × 16 48.16 0.00 0.68 10.24
    32 × 32 47.28 0.00 0.71 10.67
    64 × 64 44.34 0.78 1.35 15.46
    表  3  客观听觉测试区分度ODG

    Table  3  Objective difference grades

    等级 ODG 描述
    5.0 0.0 不可感觉
    4.0 −1.0 可感觉但不刺耳
    3.0 −2.0 轻微刺耳
    2.0 −3.0 刺耳
    1.0 −4.0 非常刺耳
    表  4  感知透明性与鲁棒性客观评价

    Table  4  Objective evaluation of perceived transparency and robustness

    音频类型 ODG BER (%)
    Popular −0.61 0.00
    Jazz −0.48 0.03
    Rock −0.68 0.16
    Speech −0.35 0.01
    Classical −0.79 0.08
    表  5  不同算法的平均检测性能对比(本文算法和文献[8])

    Table  5  Comparison of average detection performance of different schemes (our scheme and [8])

    攻击类型 本文算法 文献 [8]
    Resampling (22 050 Hz) 0.000 0.000 0.000 0.000 0.000 0.000
    Requantization (16 bit - 8 bit - 16 bit) 0.000 0.000 0.000 0.000 0.001 0.000
    Amplitude scaling down to 0.85 0.000 0.000 0.000 0.000 0.000 73.723
    Additive of Gaussian noise 0.000 0.002 0.006 0.003 0.006 0.000
    Lowpass filtering (4 kHz) 0.000 0.219 0.262 0.290 0.376 0.184
    Echo addition (50 ms delay, 5 % decay) 0.021 0.026 0.041 0.041 0.187 0.142
    MP3 compression (128 kbps) 0.000 0.000 0.000 0.000 0.000 0.002
    MP3 compression (64 ps) 0.000 0.152 0.169 0.211 0.256 0.258
    表  6  不同算法的平均检测性能对比(本文算法和文献[5])

    Table  6  Comparison of average detection performance of different schemes (our scheme and [5])

    攻击类型 本文算法 文献 [5]
    Classical Popular Classical N=8 Popular N=4 Classical N=8 Popular N=4
    Resampling (22 050 Hz) 0.00 0.00 0.00 0.29 0.00 0.71
    Resampling (11 025 Hz) 0.00 0.00 0.00 1.22 0.00 1.06
    Resampling (8 000 Hz) 0.02 0.02 0.01 1.25 0.02 1.20
    Lowpass filtering (3 kHz) 0.00 0.35 24.03 27.32 26.06 23.85
    MP3 compression (128 kbps) 0.00 0.00 0.11 0.13 0.08 0.08
    MP3 compression (112 kbps) 0.00 0.00 0.13 0.11 0.06 0.12
    MP3 compression (96 kbps) 0.00 0.00 1.01 2.07 1.06 1.40
    MP3 compression (80 kbps) 0.01 0.00 1.57 3.65 1.16 2.50
    表  7  不同算法的平均检测性能对比(本文算法和文献[7])

    Table  7  Comparison of average detection performance of different schemes (our scheme and [7])

    攻击类型 −30 dB WSR −25 dB WSR −20 dB WSR
    文献 [7] 本文算法 文献 [7] 本文算法 文献 [7] 本文算法
    No Attack 0.14 0.00 0.04 0.00 0.00 0.00
    MP3 compression (64 kbps) 32.12 10.35 25.12 0.83 17.11 0.04
    MP3 compression (128 kbps) 24.22 0.33 19.54 0.04 12.01 0.01
    Resampling (24 kHz) 0.21 0.00 0.12 0.00 0.01 0.00
    Resampling (16 kHz) 8.17 0.03 6.35 0.02 3.23 0.00
    Additive of Gaussian noise (30 dB) 13.07 0.10 11.06 0.09 9.04 0.01
    Lowpass filtering (12 kHz) 0.41 0.13 0.22 0.00 0.04 0.00
    Amplitude scaling down to 0.7 0.43 0.41 0.31 0.01 0.05 0.00
    表  8  不同算法的平均检测性能对比(本文算法和文献[17])

    Table  8  Comparison of average detection performance of different schemes (our scheme and [17])

    攻击类型 本文算法 文献 [17]
    Classical Popular Speech Classical Popular Speech
    Additive of Gaussian noise (22 dB) 0.00 0.00 0.00 0.00 0.00 0.14
    Lowpass filtering (8 kHz) 0.00 0.00 0.00 1.23 0.72 0.54
    Highpass filtering (50 Hz) 0.00 0.00 0.00 0.00 0.05 0.45
    Echo addition (50 ms delay, 40 % decay) 0.21 0.34 0.41 1.56 0.70 3.23
    Requantization (16 bit-8 bit-16 bit) 0.00 0.00 0.00 0.00 0.00 0.00
    Resampling (11 025 Hz) 0.00 0.00 0.00 0.00 0.00 0.06
    Resampling (6 000 Hz) 0.00 0.00 0.00 0.00 0.00 0.15
    Amplitude scaling up to 1.3 0.00 0.00 0.00 0.00 0.00 0.00
    Amplitude scaling down to 0.7 0.00 0.00 0.00 0.00 0.00 0.00
    MP3 compression (64 kbps) 0.00 0.00 0.00 0.02 0.00 0.06
    MP3 compression (48 kbps) 0.11 0.01 0.54 0.13 0.00 1.25
