2.793

2018影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于i向量和变分自编码相对生成对抗网络的语音转换

李燕萍 曹盼 左宇涛 张燕 钱博

李燕萍, 曹盼, 左宇涛, 张燕, 钱博. 基于i向量和变分自编码相对生成对抗网络的语音转换. 自动化学报, 2020, 46(x): 1−10. doi: 10.16383/j.aas.c190733
引用本文: 李燕萍, 曹盼, 左宇涛, 张燕, 钱博. 基于i向量和变分自编码相对生成对抗网络的语音转换. 自动化学报, 2020, 46(x): 1−10. doi: 10.16383/j.aas.c190733
Li Yan-Ping, Cao Pan, Zuo Yu-Tao, Zhang Yan, Qian Bo. Voice conversion based on i-vector with variational autoencoding relativistic standard generative adversarial network. Acta Automatica Sinica, 2020, 46(x): 1−10. doi: 10.16383/j.aas.c190733
Citation: Li Yan-Ping, Cao Pan, Zuo Yu-Tao, Zhang Yan, Qian Bo. Voice conversion based on i-vector with variational autoencoding relativistic standard generative adversarial network. Acta Automatica Sinica, 2020, 46(x): 1−10. doi: 10.16383/j.aas.c190733

基于i向量和变分自编码相对生成对抗网络的语音转换


DOI: 10.16383/j.aas.c190733
详细信息
    作者简介:

    南京邮电大学通信与信息工程学院副教授. 2009年获得南京理工大学博士学位. 主要研究方向为语音转换和说话人识别. E-mail: liyp@njupt.edu.cn

    南京邮电大学通信与信息工程学院研究生. 2020年获得南京邮电大学硕士学位.主要研究方向为语音转换和深度学习. E-mail: abreastpc@163.com

    南京邮电大学通信与信息工程学院研究生. 2019年获得南京邮电大学硕士学位. 主要研究方向为语音转换. E-mail: zuoyt@chinatelecom.cn

    金陵科技学院软件工程学院教授. 2017年获得南京理工大学博士学位. 主要研究方向为模式识别和领域软件工程. E-mail: zy@jit.edu.cn

    南京电子技术研究所高级工程师. 2007年获得南京理工大学博士学位. 主要研究方向为模式识别和人工智能. E-mail: sandson6@163.com

  • 基金项目:  国家自然科学青年基金(61401227), 国家自然科学面上基金(61872199, 61872424), 金陵科技学院智能人机交互科技创新团队建设专项(218/010119200113)资助

Voice Conversion based on i-vector with Variational Autoencoding Relativistic Standard Generative Adversarial Network

More Information
  • Fund Project:  Supported by National Natural Science Foundation of Youth Foundation of China (61401227), National Natural Science Foundation of China (61872199, 61872424), and Special Project of Intelligent Human-Computer Interaction Technology Innovation Team Building of Jinling Institute of Technology (218/010119200113)
  • 摘要: 该文提出一种基于i 向量和变分自编码相对生成对抗网络的语音转换方法, 实现了非平行文本条件下高质量的多对多语音转换. 性能良好的语音转换系统, 既要保持重构语音的自然度, 又要兼顾转换语音的说话人个性特征是否准确. 首先为了改善合成语音自然度, 利用生成性能更好的相对生成对抗网络代替 基于变分自编码生成对抗网络模型中的Wasserstein生成对抗网络, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 克服了Wasserstein生成对抗网络性能不稳定和收敛速度较慢等问题. 进一步为了 提升转换语音的说话人个性相似度, 在解码阶段, 引入含有丰富个性信息的i-vector, 以充分学习说话人的个性化特征. 客观和主观实验表明, 转换后的语音平均MCD值较基准模型降低4.80%, MOS 值提升5.12%, ABX 值提升8.60%, 验证了该方法在语音自然度 和个性相似度两个方面均有显著的提高, 实现了高质量的语音转换.
  • 图  1  基于VARSGAN+i-vector 模型的整体流程图

    Fig.  1  Framework of voice conversion based on VARSGAN+i-vector network

    图  2  VARSGAN+i-vector 模型原理示意图

    Fig.  2  Schematic diagram of VARSGAN+i-vector network

    图  3  VARSGAN+i-vector 模型网络结构示意图

    Fig.  3  Structure of VARSGAN+i-vector network

    图  4  16 种转换情形下五种模型的转换语音的MCD值对比

    Fig.  4  Average MCD of five models for 16 conversion cases

    图  5  四类转换情形下不同模型的MCD值对比

    Fig.  5  Comparison of MCD of different models for four conversion cases

    图  6  五种模型在不同转换类别下的MOS值对比

    Fig.  6  Comparison of MOS for different conversion categories in five models

    图  7  同性转换情形下五种模型转换语音的ABX图

    Fig.  7  ABX test results of five models for intra-gender

    图  8  异性转换情形下五种模型转换语音的ABX图

    Fig.  8  ABX test results of five models for inter-gender

  • [1] Godoy E, Rosec O, Chonavel T. Voice conversion using dynamic frequency warping with amplitude scaling, for parallel or nonparallel corpora. IEEE Transactions on Audio, Speech and Language Processing, 2011, 20(4): 1313−1323
    [2] Toda T, Chen L H, Saito D, et al. The voice conversion challenge 2016. 2016 INTERSPEECH, San Francisco, USA, 2016. 1632−1636.
    [3] Dong M, Yang C, Lu Y, et al. Mapping frames with DNN-HMM recognizer for non-parallel voice conversion. In: Proceedings of the 2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). Hong Kong, China: IEEE, 2015. 488−494
    [4] Zhang M, Tao J, Tian J, Wang X. Text-independent voice conversion based on state mapped codebook. In: Proceedings of the 2008 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Las Vegas, USA: IEEE, 2008. 4605−4608
    [5] Nakashika T, Takiguchi T, Minami Y. Non-parallel training in voice conversion using an adaptive restricted boltzmann machine. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(11): 2032−2045 doi:  10.1109/TASLP.2016.2593263
    [6] Mouchtaris A, Van der Spiegel J, Mueller P. Nonparallel training for voice conversion based on a parameter adaptation approach. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(3): 952−963 doi:  10.1109/TSA.2005.857790
    [7] Hsu C C, Hwang H T, Wu Y C, Tsaoet Y, Wang H M. Voice conversion from non-parallel corpora using variational auto-encoder. In: Proceedings of the 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). Jeju, South Korea: IEEE, 2016. 1−6
    [8] Hsu C C, H.-T., Y.-C. Wu, Y. Tsao, and H.-M. Wang. Voice conversion from unaligned corpora using variational autoencoding Wasserstein generative adversarial networks. 2017 INTERSPEECH, 2017. 3364−3368
    [9] Kameoka H, Kaneko T, Tanaka K, Hojo N. StarGAN-VC: Non-parallel many-to-many voice conversion using star generative adversarial networks. In: Proceedings of the 2018 IEEE Spoken Language Technology Workshop (SLT). Athens, Greece: IEEE, 2018. 266−273
    [10] Fang F, Yamagishi J, Echizen I, Lorenzo-Trueba J. High-quality nonparallel voice conversion based on cycle-consistent adversarial network. In: Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, Canada: IEEE, 2018. 5279−5283
    [11] Arjovsky M, Chintala S, Bottou L. Wasserstein generative adversarial networks. In: Proceedings of the 34th International Conference on Machine Learning International Conference on Machine Learning (ICML). Sydney, Australia: ACM, 2017. 214−223
    [12] 王坤峰, 苟超, 段艳杰, 林懿伦, 郑心湖, 王飞跃. 生成式对抗网络GAN的研究进展与展望. 自动化学报, 2017, 43(3): 321−332

    Wang Kun-Feng, Gou Chao, Duan Yan-Jie, Lin Yi-Lun, Zheng Xin-Hu, Wang Fei-Yue. Generative Adversarial Networks: The State of the Art and Beyond. Acta Automatica Sinica, 2017, 43(3): 321−332
    [13] Baby D, Verhulst S. Sergan. Speech enhancement using relativistic generative adversarial networks with gradient penalty. In: Proceedings of the ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton, United Kingdom: IEEE, 2019. 106−110
    [14] Dehak N, Kenny P J, Dehak R, Dumouchelet P, Ouellet P. Front-end factor analysis for speaker verification. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 19(4): 788−798
    [15] 汪海彬, 郭剑毅, 毛存礼, 余正涛. 基于通用背景-联合估计 (UB-JE) 的说话人识别方法. 自动化学报, 2018, 44(10): 1888−1895

    Wang Hai-Bin, Guo Jian-Yi, Mao Cun-Li, Yu Zheng-Tao. Speaker recognition based on universal Background-Joint Estimation (UB-JE). Acta Automatica Sinica, 2018, 44(10): 1888−1895
    [16] Matějka P, Glembek O, Castaldo F, et al. Full-covariance UBM and heavy-tailed PLDA in i-vector speaker verification. In: Proceedings of the 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Prague, Czech Republic: IEEE, 2011. 4828−4831
    [17] Kanagasundaram A, Vogt R, Dean D B, et al. I-vector based speaker recognition on short utterances. In: Proceedings of the 12th Annual Conference of the International Speech Communication Association. International Speech Communication Association (ISCA). Florence, Italy, 2011. 2341−2344
    [18] 张一珂, 张鹏远, 颜永红. 基于对抗训练策略的语言模型数据增强技术. 自动化学报, 2018, 44(5): 891−900

    Zhang Yi-Ke, Zhang Peng-Yuan, Yan Yong-Hong. Data augmentation for language models via adversarial training. Acta Automatica Sinica, 2018, 44(5): 891−900
    [19] Mao X, Li Q, Xie H, et al. Least squares generative adversarial networks. In: Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 2794−2802
    [20] Morise M, Yokomori F, Ozawa K. WORLD: a vocoder-based high-quality speech synthesis system for real-time applications. IEICE TRANSACTIONS on Information and Systems, 2016, 99(7): 1877−1884
    [21] Gulrajani I, Ahmed F, Arjovsky M, Dumoulin V, Courville A C. Improved training of wasserstein gans. In: Proceedings of the Advances in neural information processing systems. Leicester, United Kingdom: IEEE, 2017. 5767−5777
    [22] Lorenzo-Trueba J, Yamagishi J, Toda T, et al. The voice conversion challenge 2018: Promoting development of parallel and nonparallel methods. In: Odyssey 2018 The Speaker and Language Recognition Workshop. Les Sables d'Olonne, France: ISCA Speaker and Language Characterization Special Interest Group, 2018. 195−202
    [23] Maas A L, Hannun A Y, Ng A Y. Rectifier nonlinearities improve neural network acoustic models. Computer Science, 2013, 30(1): 1152−1160
    [24] 梁瑞秋, 赵力, 王青云[著]. 语音信号处理(C++版).北京: 机械工业出版社, 2018

    Liang Rui-qiu, Zhao Li, Wang Qing-yun[Author]. Speech Signal Preprocessing (C++). Beijing: China Machine Press, 2018
    [25] 张雄伟, 陈亮, 杨吉斌[著]. 现代语音处理技术及应用. 北京: 机械工业出版社, 2003

    Zhang Xiong-Wei, Chen Liang, Yang Ji-Bin[Author]. Modern Speech Processing Technology and Application. Beijing: China Machine Press, 2007
    [26] Chou J C, Lee H Y. One-Shot voice conversion by separating speaker and content representations with instance normalization. 2019 INTERSPEECH, Graz, Austria, 2019. 664−668
  • [1] 刘一敏, 蒋建国, 齐美彬, 刘皓, 周华捷. 融合生成对抗网络和姿态估计的视频行人再识别方法[J]. 自动化学报, doi: 10.16383/j.aas.c180054
    [2] 孔锐, 黄钢. 基于条件约束的胶囊生成对抗网络[J]. 自动化学报, doi: 10.16383/j.aas.c180590
    [3] 孔锐, 蔡佳纯, 黄钢. 基于生成对抗网络的对抗攻击防御模型[J]. 自动化学报, doi: 10.16383/j.aas.2020.c200033
    [4] 付晓, 沈远彤, 李宏伟, 程晓梅. 基于半监督编码生成对抗网络的图像分类模型[J]. 自动化学报, doi: 10.16383/j.aas.c180212
    [5] 卫星, 李佳, 孙晓, 刘邵凡, 陆阳. 基于混合生成对抗网络的多视角图像生成算法[J]. 自动化学报, doi: 10.16383/j.aas.c190743
    [6] 胡铭菲, 左信, 刘建伟. 深度生成模型综述[J]. 自动化学报, doi: 10.16383/j.aas.c190866
    [7] 石勇, 李佩佳, 汪华东. L2损失大规模线性非平行支持向量顺序回归模型[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170438
    [8] 唐贤伦, 杜一铭, 刘雨微, 李佳歆, 马艺玮. 基于条件深度卷积生成对抗网络的图像识别方法[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170470
    [9] 郑文博, 王坤峰, 王飞跃. 基于贝叶斯生成对抗网络的背景消减算法[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170562
    [10] 赵树阳, 李建武. 基于生成对抗网络的低秩图像生成方法[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170473
    [11] 卢倩雯, 陶青川, 赵娅琳, 刘蔓霄. 基于生成对抗网络的漫画草稿图简化[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170486
    [12] 张龙, 赵杰煜, 叶绪伦, 董伟. 协作式生成对抗网络[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170483
    [13] 孙亮, 韩毓璇, 康文婧, 葛宏伟. 基于生成对抗网络的多视图学习与重构算法[J]. 自动化学报, doi: 10.16383/j.aas.2018.c170496
    [14] 唐朝辉, 朱清新, 洪朝群, 祝峰. 基于自编码器及超图学习的多标签特征提取[J]. 自动化学报, doi: 10.16383/j.aas.2016.c150736
    [15] 李鑫鑫, 王轩, 姚霖, 关键. 基于级联重排序的汉语音字转换[J]. 自动化学报, doi: 10.3724/SP.J.1004.2014.00624
    [16] 杨波, 李惠光, 沙晓鹏, 邵暖. 基于I&I与Hamiltonian理论的机器人速度观测器设计[J]. 自动化学报, doi: 10.3724/SP.J.1004.2012.01757
    [17] 刘开第, 庞彦军, 栗文国. 多指标决策中隶属度转换算法及其应用[J]. 自动化学报, doi: 10.3724/SP.J.1004.2009.00315
    [18] 吕健, 滨岛京子, 姜伟. 用多传感器对制造车间进行大范围监测[J]. 自动化学报
    [19] 杨根科, 吴智铭. 多服务器排队网络的规则行为[J]. 自动化学报
    [20] 李海通. 小值轴角编码器[J]. 自动化学报
  • 加载中
计量
  • 文章访问数:  5
  • HTML全文浏览量:  1
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-10-23
  • 录用日期:  2020-07-27

基于i向量和变分自编码相对生成对抗网络的语音转换

doi: 10.16383/j.aas.c190733
    基金项目:  国家自然科学青年基金(61401227), 国家自然科学面上基金(61872199, 61872424), 金陵科技学院智能人机交互科技创新团队建设专项(218/010119200113)资助
    作者简介:

    南京邮电大学通信与信息工程学院副教授. 2009年获得南京理工大学博士学位. 主要研究方向为语音转换和说话人识别. E-mail: liyp@njupt.edu.cn

    南京邮电大学通信与信息工程学院研究生. 2020年获得南京邮电大学硕士学位.主要研究方向为语音转换和深度学习. E-mail: abreastpc@163.com

    南京邮电大学通信与信息工程学院研究生. 2019年获得南京邮电大学硕士学位. 主要研究方向为语音转换. E-mail: zuoyt@chinatelecom.cn

    金陵科技学院软件工程学院教授. 2017年获得南京理工大学博士学位. 主要研究方向为模式识别和领域软件工程. E-mail: zy@jit.edu.cn

    南京电子技术研究所高级工程师. 2007年获得南京理工大学博士学位. 主要研究方向为模式识别和人工智能. E-mail: sandson6@163.com

摘要: 该文提出一种基于i 向量和变分自编码相对生成对抗网络的语音转换方法, 实现了非平行文本条件下高质量的多对多语音转换. 性能良好的语音转换系统, 既要保持重构语音的自然度, 又要兼顾转换语音的说话人个性特征是否准确. 首先为了改善合成语音自然度, 利用生成性能更好的相对生成对抗网络代替 基于变分自编码生成对抗网络模型中的Wasserstein生成对抗网络, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 克服了Wasserstein生成对抗网络性能不稳定和收敛速度较慢等问题. 进一步为了 提升转换语音的说话人个性相似度, 在解码阶段, 引入含有丰富个性信息的i-vector, 以充分学习说话人的个性化特征. 客观和主观实验表明, 转换后的语音平均MCD值较基准模型降低4.80%, MOS 值提升5.12%, ABX 值提升8.60%, 验证了该方法在语音自然度 和个性相似度两个方面均有显著的提高, 实现了高质量的语音转换.

English Abstract

李燕萍, 曹盼, 左宇涛, 张燕, 钱博. 基于i向量和变分自编码相对生成对抗网络的语音转换. 自动化学报, 2020, 46(x): 1−10. doi: 10.16383/j.aas.c190733
引用本文: 李燕萍, 曹盼, 左宇涛, 张燕, 钱博. 基于i向量和变分自编码相对生成对抗网络的语音转换. 自动化学报, 2020, 46(x): 1−10. doi: 10.16383/j.aas.c190733
Li Yan-Ping, Cao Pan, Zuo Yu-Tao, Zhang Yan, Qian Bo. Voice conversion based on i-vector with variational autoencoding relativistic standard generative adversarial network. Acta Automatica Sinica, 2020, 46(x): 1−10. doi: 10.16383/j.aas.c190733
Citation: Li Yan-Ping, Cao Pan, Zuo Yu-Tao, Zhang Yan, Qian Bo. Voice conversion based on i-vector with variational autoencoding relativistic standard generative adversarial network. Acta Automatica Sinica, 2020, 46(x): 1−10. doi: 10.16383/j.aas.c190733
  • 语音转换是在保持语音内容不变的同时, 改变一个人的声音, 使之听起来像另一个人的声音[1-2]. 根据训练过程对语料的要求, 分为平行文本条件下的语音转换和非平行文本条件下的语音转换. 在实际应用中, 预先采集大量平行训练文本, 不仅耗时耗力, 而且在跨语种转换和医疗辅助系统中往往无法采集到平行文本, 因此非平行文本条件下的语音转换研究具有更大的应用背景和现实意义.

    性能良好的语音转换系统, 既要保持重构语音的自然度, 又要兼顾转换语音的说话人个性信息是否准确. 近年来, 为了改善转换后合成语音的自然度和说话人个性相似度, 非平行文本条件下的语音转换研究取得了很大进展, 根据其研究思路的不同, 大致可以分为三类, 第一类的思想是从语音重组的角度, 在一定条件下将非平行文本转化为平行文本进行处理[3-4], 其代表算法包括两种, 一种是使用独立于说话人的自动语音识别 (Automatic Speech Recognition, ASR) 系统标记音素, 另一种是借助文语转换 (Text To Speech, TTS) 系统将小型语音单元拼接成平行语音. 该类方法原理简单, 易于实现, 然而这些方法很大程度上依赖于ASR或TTS系统的性能; 第二类是从统计学角度利用背景说话人的信息作为先验知识, 应用模型自适应技术对已有的平行转换模型进行更新, 包括说话人自适应[5-6]和说话人归一化等, 但是这类方法通常要求背景说话人的训练数据是平行文本, 因此并不能完全解除对平行训练数据的依赖, 还增加了系统的复杂性; 前两类通常只能为每个源-目标说话人对 (Speaker Pair) 构建一个映射函数, 即一对一转换 (One-to-One), 当存在多个说话人对时, 就需要构建多个映射函数, 增加系统的复杂性和运算量. 第三类是解卷(Disentangle) 语义和说话人个性信息的思想, 转换过程可以理解为源说话人语义信息 和目标说话人个性信息的重构, 其代表算法包括基于条件变分自编码器 (Conditional Variational Auto-Encoder, C-VAE)[7]的方法、基于变分自编码生成对抗网络(Variational Autoencoding Wasserstein Generative Adversarial Network, VAWGAN)[8]的方法和基于星型生成对抗网络 (Star Generative Adversarial Network, StarGAN)[9]的方法. 这类方法直接规避了非平行文本对齐的问题, 实现将多个源-目标说话人对的转换整合在一个转换模型中, 提供了多说话人向多说话人转换的新框架, 即多对多转换 (Many-to-Many), 成为目前非平行文本条件下语音转换的主流方法.

    基于 C-VAE 模型的语音转换方法, 其中的编码器对语音实现语义和个性信息的解卷, 解码器通过语义和说话人身份标签完成语音的重构, 从而解除对平行文本的依赖, 实现多说话人对多说话人的转换. 但是由于C-VAE 基于理想假设, 认为观察到的数据通常遵循高斯分布, 导致解码器的输出语音过度平滑, 转换后的语音质量不高. 基于循环一致生成对抗网络的语音转换方法(Cycle-consistent Genertive Adversarial Network, CycleGAN)[10]可以一定程度上解决过平滑问题, 但是该方法只能实现一对一的语音转换.

    Hsu Chin-Cheng等人[8]提出的VAWGAN模型通过在C-VAE中引入Wasserstein生成对抗网络(Wasserstein Generative Adversarial Network, WGAN)[11], 将 VAE的解码器指定为WGAN的生成器来优化目标函数, 一定程度上提升转换语音的质量, 然而Wasserstein生成对抗网络仍存在一些不足之处, 例如性能不稳定, 收敛速度较慢等. 与此同时, VAWGAN使用说话人身份标签one-hot向量建立语音转换系统, 而该指示标签无法携带更为丰富的说话人个性信息, 因此转换后的语音在个性相似度上仍有待提升.

    针对上述问题, 本文从两方面提出改进, 一方面通过改善生成对抗网络[12]的性能, 进一步提升语音转换模型生成语音的清晰度和自然度. 另一方面, 通过引入含有丰富说话人个性信息的表征向量, 提高转换语音的个性相似度. 2019年, Baby D[13]通过实验证明, 相比于WGAN, 相对生成对抗网络 (Relativist-ic Standard Generative Adversarial Networks, RSGAN) 生成的数据样本更稳定且质量更高. 此外, 在说话人确认[14-16]和说话人识别[17]领域的相关实验证明, i向量 (Identity-Vector, i-vector)可以充分表征说话人个性信息. 鉴于此, 本文提出基于i向量和变分自编码相对生成对抗网络的语音转换模型(Variational Autoencoding RSGAN and i-vector, VARSGAN+i-vector), 该方法将RSGAN应用在语音转换领域, 利用生成性能更好的相对生成对抗网络替换 VAWGAN模型中的 Wasserstein生成对抗网络, 同时在解码网络引入含有丰富说话人个性信息的i-vector辅助语音的重构. 充分的客观和主观实验表明, 本文提出的方法在有效改善合成语音自然度的同时进一步提升了说话人个性相似度, 实现了非平行文本条件下高质量的多对多语音转换.

    • 基于VAWGAN语音转换模型利用WGAN[11]提升了C-VAE的性能, 其中 C-VAE 的解码器部分由WGAN中的生成器代替. VAWGAN模型由三部分构成: 编码器、生成器和鉴别器, 完整的语音转换模型可以表示为:

      $$ \begin{array}{l} \hat x = \hat f(x,y) = {f_\theta }(z,y) = {f_\theta }({f_\phi }(x),y) \end{array} $$ (1)

      其中, $ {f_\phi }( \cdot ) $表示编码过程, 通过编码过程将输入语音$ x $ 转换为独立于说话人的隐变量$ z $, 认为是与说话人个性特征无关的语义信息. $ {f_\theta }( \cdot ) $表示解码过程, 将说话人标签$ y $ 拼接至隐变量$ z $上构成联合特征$ (z,y) $, 在解码过程中利用联合特征$ (z,y) $重构出特定说话人相关的语音, 然后将真实语音$ x $和生成语音$ \hat x $送入鉴别器判别真假. 与此同时, 利用表征说话人身份的one-hot标签$ y $, VAWGAN 模型可以根据$ y $ 的数值对其表示的特定说话人进行语音转换, 从而实现多说话人对多说话人的语音转换.

      为了实现语音转换, WGAN通过Wassertein目标函数[8]来代替生成对抗网络(Generative Adversarial Network, GAN) 中的 JS散度 (Jensen-Shannon Divergence, JS)来衡量生成数据分布和真实数据分布之间的距离, 在一定程度上改善了传统GAN[18]训练不稳定的问题.

      综上分析可知, VAWGAN利用潜在语义内容$ z $和说话人标签$ y $重构任意目标说话人的语音, 实现了非平行文本条件下多对多的语音转换. 该基准模型中WGAN采用权重剪切 (Weight Clipping)操作来强化Lipschitz连续性限制条件, 但仍存在训练不易收敛, 性能不稳定等问题, 在数据生成能力上仍存在一定的改进空间. 此外, VAWGAN利用one-hot标签表征说话人身份, 而one-hot标签只是用于指示不同说话人, 无法携带更为丰富的说话人个性信息. 通过提升WGAN的性能或找到生成性能更加强大的生成对抗网络, 有望获得更好自然度的语音, 进一步引入含有丰富说话人个性信息的表征向量能够有助于提升说话人个性相似度.

    • 为了进一步提升VAWGAN的性能, 通过找到一个生成性能更加强大的GAN替换WGAN是本文的一个研究出发点. 2019年Baby D[13]通过实验证明相比于最小二乘GAN (Least Squares GAN, LSGAN)[19]和WGAN[11], RSGAN生成的数据样本更稳定且质量更高. RSGAN由标准生成对抗网络(Standard Generative Adversarial Networks, SGAN) 发展而来, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 在训练生成器时真实样本也能参与训练. 为了将鉴别器的输出限制在[0, 1]中, SGAN常常在鉴别器的最后一层使用Sigmoid激励函数, 因此SGAN的鉴别器定义为:

      $$ \begin{array}{l} D(x) = sigmoid(C(x)) \end{array} $$ (2)

      其中$ C(x) $为未经过 Sigmoid函数激励的鉴别器输出. 由于鉴别器的输出由真实样本和生成样本共同决定, 因此可以使用下述的方法构造相对鉴别器:

      $$ \begin{array}{l} D(\tilde x) = sigmoid(C({x_r}) - C({x_f})) \end{array} $$ (3)
      $$ \begin{array}{l} {D_{rev}}(\tilde x) = sigmoid(C({x_f}) - C({x_r})) \end{array} $$ (4)

      其中, $ {x_r} $表示真实样本, $ {x_r} \in P $, $ {x_f} $表示生成样本, $ {x_f} \in Q $, $ D(\tilde x) $表示真实样本比生成样本更真实的概率, $ {D_{rev}}(\tilde x) $表示生成样本比真实样本更真实的概率. 经过如下推导:

      $$ \begin{split} {1 - {D_{rev}}(\tilde x)} =& 1 - sigmoid(C({x_f}) - C({x_r}))=\\ & sigmoid(C({x_r}) - C({x_f}))= D(\tilde x) \end{split} $$ (5)

      可以得到下式:

      $$ \begin{array}{l} \log (D(\tilde x)) = \log (1 - {D_{rev}}(\tilde x)) \end{array} $$ (6)

      进而可以得到RSGAN的鉴别器和生成器的目标函数:

      $$ \begin{array}{l} {L_D} = - {E_{({x_r},{x_f})\sim(P,Q)}}[\log (sigmoid(C({x_r}) - C({x_f})))] \end{array} $$ (7)
      $$ \begin{array}{l} {L_G} = - {E_{({x_r},{x_f})\sim(P,Q)}}[\log (sigmoid(C({x_f}) - C({x_r})))] \end{array} $$ (8)

      其中, sigmoid表示鉴别器最后一层使用Sigmoid激活函数.

      综上分析可知, 相比于WGAN, RSGAN生成的数据样本更稳定且质量更高, 若将RSGAN应用到语音转换中, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 在训练生成器时真实样本也能参与训练, 从而改善鉴别器中可能存在的偏置情况, 使得训练更加稳定, 性能得到提升, 并且把真实样本引入到生成器的训练中, 可以加快GAN的收敛速度. 鉴于此, 本文提出利用RSGAN替换WGAN, 构建基于变分自编码相对生成对抗网络(Variational Autoencoding Relativistic Standard Generative Adversarial Networks, VARSGAN)的语音转换模型, 并引入可以充分表征说话人个性信息的i-vector特征, 以期望在改善合成语音自然度的同时进一步提升转换语音的个性相似度.

    • 通过引入含有丰富说话人个性信息的表征向量, 从而提升转换语音的个性相似度是本文在上述研究基础上进一步的探索. Dehak等人[14]提出的说话人身份向量i-vector, 可以充分表征说话人的个性信息. i-vector是在高斯混合模型-通用背景模型(Gaussian Mixture Model-Universal Background Model, GMM-UBM)[15]超向量和信道分析的基础上提出的一种低维定长特征向量. 对于p维的输入语音, GMM-UBM模型采用最大后验概率(Maximum A Posterior, MAP) 算法对高斯混合模型(Gaussian Mixture Model, GMM) 中的均值向量参数进行自适应可以得到GMM超向量. 其中, GMM-UBM模型可以表征背景说话人整个声学空间的内部结构, 所有说话人的高斯混合模型具有相同的协方差矩阵和权重参数. 由于说话人的语音中包含了个性差异信息和信道差异信息, 因此全局GMM的超向量可以定义为:

      $$ \begin{array}{l} S = m + T\omega \end{array} $$ (9)

      其中, $ S $表示说话人的超向量, $ m $ 表示与特定说话人和信道无关的均值超向量, 即UBM模型下的超向量, $ T $是低维的全局差异空间矩阵, 表示背景数据的说话人空间, 包含了说话人信息和信道信息在空间上的统计分布, 也称为全局差异子空间 (Total Variability Subspace, TVS). $\omega = ({\omega _1},{\omega _2},\cdots,{\omega _q})$ 是包含整段语音中的说话人信息和信道信息的全局变化因子, 服从标准正态分布$ N(0,{\rm{ }}I) $, 称之为i向量, 即身份特征向量i-vector.

      首先, 将经过预处理的训练语料进行特征提取得到梅尔频率倒谱系数 (Mel-Frequency Cepstral Coefficients, MFCC), 将MFCC参数输入高斯混合模型进行训练,通过期望最大化 (Expectation-Maximization algorithm, EM) 算法得到基于高斯混合模型的通用背景模型, 根据通用背景模型得到均值超向量$ m $, 通过最大后验概率均值自适应得到说话人的超向量$ S $. 同时, 根据训练所得的通用背景模型提取其鲍姆-韦尔奇(Baum-Welch) 统计量, 通过EM算法估计获得全局差异空间矩阵$ T $. 最终, 通过上述求得的GMM的超向量$ S $、UBM的均值超向量$ m $、全局差异空间矩阵$ T $ 可以得到i-vector. 由于上述得到的i-vector同时含有说话人信息和信道信息, 本文采用线性判别分析(Linear Discriminant Analysis, LDA) 和类协方差归一化 (Within Class Covariance Normalization, WCCN) 对i-vector进行信道补偿, 最终生成鲁棒的低维i-vector向量.

    • 基于以上分析, 本文提出VARSGAN+i-vector的语音转换模型, 在解码阶段, 融入表征说话人个性信息的i-vector, 将one-hot标签和i-vector拼接至语义特征上构成联合特征重构出指定说话人相关的语音. 其中, i-vector含有丰富的说话人个性信息, 能够与传统编码中的one-hot标签相互补充, 互为辅助, 前者为语音的合成提供丰富的说话人信息, 后者作为精准的标签能够准确区分不同说话人, 相辅相成有效提升转换后语音的个性相似度, 进一步实现高质量的语音转换.基于VARSGAN+i-vector模型的整体流程图如图1所示, 分为训练阶段和转换阶段.

      图  1  基于VARSGAN+i-vector 模型的整体流程图

      Figure 1.  Framework of voice conversion based on VARSGAN+i-vector network

    • 获取训练语料, 训练语料由多名说话人的语料组成, 包含源说话人和目标说话人; 将所述的训练语料通过WORLD[20]语音分析模型, 提取出各说话人语句的频谱包络、基频和非周期性特征; 利用2.2节中的i-vector提取方法获得表征各个说话人个性信息的i向量 $ i $; 将频谱包络特征$ x $、说话人标签$ y $、i向量$ i $ 一同输入VARSGAN+i-vector模型进行训练, VARSGAN+i-vector模型是由C-VAE和RSGAN结合而成, 将变分自编码器的解码器指定为RSGAN的生成器来优化目标函数. 其原理示意图如图2所示:

      图  2  VARSGAN+i-vector 模型原理示意图

      Figure 2.  Schematic diagram of VARSGAN+i-vector network

      该模型完整的目标损失函数为:

      $$ \begin{array}{l} {J_{VARSGAN + i - vector}} = L(x;\phi ,\theta ) + \alpha {J_{RSGAN}} \end{array} $$ (10)

      其中, $ L(x;\phi ,\theta ) $为C-VAE部分的目标函数:

      $$ \begin{split} L(x;\phi ,\theta ) = - {D_{KL}}({q_\phi }(z|x)||{p_\theta }(z))+\\ \qquad\qquad\quad{E_{{q_\phi }(z|x)}}[\log {p_\theta }(x|z,y,i)] \end{split} $$ (11)

      式中, $ {D_{KL}} $表示$ KL $散度, $ {q_\phi }(z|x) $表示编码网络, 该网络将频谱特征$ x $编码成潜在变量$ z $. $ {p_\theta }(x|z,y,i) $表示解码网络, 将联合特征向量尽可能重构$ x $ 就可以使式(11)的期望尽可能大. $ {p_\theta }(z) $为潜在变量$ z $ 的先验分布, 该分布为标准多维高斯分布. 使用随机梯度下降法来更新C-VAE中的网络模型参数, 其目标是$ \max \left\{ {L(x;\phi ,\theta )} \right\} $.

      在式(10)中$ \alpha $是调节RSGAN损失的系数, $ {J_{RSGAN}} $表示RSGAN部分的目标函数, 由生成器和鉴别器的损失函数构成, 其中RSGAN的生成器中结合了表征各说话人个性信息的i向量$ i $, 由2.1节式 (7) 和式 (8)可知, 生成器网络的损失函数用$ {L_G} $来表示:

      $$ \begin{split} {L_G} =& - \alpha {E_{(x,z)\sim({p_{data}},{q_\phi }(z|x))}}[\log (sigmoid({D_\psi }({G_\theta }\\ &(z,y,i)) - {D_\psi }(x)))] - {E_{{q_\phi }(z|x)}}[\log {p_\theta }(x|z,y,i)] \end{split} $$ (12)

      其中, $ {G_\theta } $表示生成器, $ {D_\psi } $表示鉴别器, $ \theta $$ \psi $分别是生成器和鉴别器的相关参数, $ {G_\theta }(z,y,i) $表示重构的频谱特征, $ {D_\psi}({G_\theta }(z,y,i) $)表示鉴别器对重构的频谱特征判别真假.

      鉴别器网络的损失函数用$ {L_D} $表示:

      $$ \begin{split} {L_D} =& - {E_{(x,z)\sim({p_{data}},{q_\phi }(z|x))}}[\log (sigmoid({D_\psi }(x)-\\ &{D_\psi }({G_\theta }(z,y,i))))]\\[-10pt]\end{split} $$ (13)

      添加梯度惩罚项 (Gradient Penalize, GP)后, 鉴别器的损失函数更新为:

      $$ \begin{split} {L_D} =& - {E_{(x,z)\sim({p_{data}},{q_\phi }(z|x))}}[\log (sigmoid({D_\psi }(x)-\\ &{D_\psi }({G_\theta }(z,y,i))))]+\\ &\lambda {E_{\hat x\sim{P_{\hat x}}}}{[{\left\| {{\nabla _{\hat x}}D(\hat x)} \right\|_2} - 1]^2} \\[-10pt] \end{split} $$ (14)

      其中, $ {E_{\hat x\sim{P_{\hat x}}}}{[{\left\| {{\nabla _{\hat x}}D(\hat x)} \right\|_2} - 1]^2} $ 为梯度惩罚项, 能够加快收敛速度, 使得训练过程更为稳定[13, 21], $ \lambda $表示梯度惩罚参数. 训练过程中, 生成器网络的优化目标是$ \min \{ {L_G}\} $, 鉴别器网络的优化目标是$ \min \{ {L_D}\} $, 直至设置的迭代次数, 得到训练好的VARSGAN+i-vector网络.

      构建从源说话人语音对数基频$ \log {f_0} $到目标说话人对数基频$ \log {f_0}^\prime $的转换函数:

      $$ \begin{array}{l} \log {f_0}^\prime = \mu ' + \dfrac{{\sigma '}}{\sigma }(\log {f_0} - \mu ) \end{array} $$ (15)

      其中, $ \mu $$ \sigma $分别表示源说话人的基频在对数域的均值和标准差, $ \mu ' $$ \sigma ' $ 分别表示目标说话人的基频在对数域的均值和标准差.

    • 将待转换语料中源说话人的语音通过WORLD[20]语音分析模型提取出不同语句的频谱包络特征$ x $、基频和非周期性特征; 将频谱包络特征$ x $、说话人标签$ y $、i向量$ i $ 输入训练好的VARSGAN+i-vector模型, 从而重构出目标说话人频谱包络特征$ \hat x $; 通过式(15) 表示的基频转换函数, 将源说话人对数基频$ \log {f_0} $ 转换为目标说话人的对数基频$ \log {f_0}^\prime $; 非周期性特征保持不变. 将重构的目标说话人频谱包络特征$ \hat x $、目标说话人的对数基频$ \log {f_0}^\prime $ 和源说话人的非周期性特征通过WORLD语音合成模型, 合成得到转换后的说话人语音.

    • 本实验采用VCC2018[22] 中的语料库, 该语料库是由国际行业内挑战赛 (Voice Conversion Challenge)提供的标准数据库, 为评估不同科研团队的语音转换系统的性能提供一个通用标准. 其链接为http://www.vc-challenge.org/vcc2018/index.html, 其中的非平行文本语料库包括4名源说话人, 2名男性和2名女性分别是VCC2SF3、VCC2SF4、VCC2SM3和VCC2SM4, 和4名目标说话人, 2名男性和2名女性分别是VCC2TF1、VCC2TF2、VCC2TM1和VCC2TM2. 每个说话人在训练时均选取81句训练语音, 在转换时选取35句测试语音进行转换, 一共有16种转换情形. 将上述8个说话人的训练语料输入Kaldi语音识别工具中预训练好的模型来提取i-vector特征, 分别得到表征上述8个人个性信息的各自100维的i-vector.

      实验系统在Python平台环境下实现. 在Intel(R) Xeon(R) CPU E5-2660 v4 @ 2.00GHz、NVIDIA Tesla V100 (rev a1)的Linux服务器上运行, 对语料库中的8个说话人的语音基于五种模型进行客观和主观评测, 将Hsu Chin-Cheng等人[8]提出的VAWGAN作为本文的基准模型与本文提出的改进模型VARSGAN, VAWGAN+i-vector和VARSGAN+ i-vector进行纵向对比, 并进一步与Kameoka等人[9]提出的 StarGAN模型进行横向对比, 这五种模型都是实现非平行文本条件下的多对多转换.

      本文使用WORLD分析/合成模型提取语音参数, 包括频谱包络特征、非周期性特征和基频, 由于FFT长度设置为1024, 因此得到的频谱包络和非周期性特征均为1024/2+1 = 513维. 使用VARSGAN+i-vector模型转换频谱包络特征, 使用传统的高斯归一化的转换方法转换对数基频, 非周期性特征保持不变. 在VARSGAN+i-vector模型中, 所述编码器、生成器、鉴别器均采用二维卷积神经网络, 激活函数采用LReLU函数[23]. 图3为VARSGAN+i-vector模型网络结构图,其中, 编码器由5个卷积层构成, 生成器由4个反卷积层构成, 鉴别器由3个卷积层和1个全连接层构成.

      图  3  VARSGAN+i-vector 模型网络结构示意图

      Figure 3.  Structure of VARSGAN+i-vector network

      其中, h、w、c分别表示高度、宽度、通道数, k、c、s分别表示卷积层的内核大小、输出通道数、步长. Conv表示卷积, Deconv表示反卷积(转置卷积), Fully Connected表示全连接层, Batch Norm表示批归一化. 实验中隐变量$ z $的维度, 在借鉴基于变分自编码器模型的相关文献基础上结合实验调参, 设置为128. 实验中RSGAN的损失系数$ \alpha $设置为50、梯度惩罚参数$ \lambda $ 设置为10、训练批次大小设置为16、训练周期为200、学习率为0.0001、最大迭代次数设为200000. 本文提出的模型VARSGAN+i-vector, 训练至120000轮左右损失函数收敛, 能达到稳定的训练效果, 而基准模型耗时相对较长,并且得到的转换性能不够稳定.

    • 本文选用梅尔倒谱失真距离 (Mel-Cepstral Distortion, MCD) 作为客观评价标准, 通过MCD来衡量转换后的语音与目标语音的频谱距离[1-2], MCD的计算公式如下所示:

      $$ \begin{array}{l} MCD(dB) = \dfrac{{10}}{{\ln 10}}\sqrt {2\sum\limits_{d = 1}^D {{{\left( {{c_d} - {{\hat c}_d}} \right)}^2}} } \end{array} $$ (16)

      其中, $ {c_d} $$ {\hat c_d} $ 分别是目标说话人语音和转换后语音的第$ d $维梅尔倒谱系数, $ D $是梅尔倒谱系数的维数. 计算MCD值时对16组转换情形分别选取35句转换语音进行统计. 图4为16种转换情形下五种模型的转换语音的MCD值对比.

      图  4  16 种转换情形下五种模型的转换语音的MCD值对比

      Figure 4.  Average MCD of five models for 16 conversion cases

      从图中分析可知, 16种转换情形下VAWGAN、VARSGAN、VAWGAN+i-vector、VARSGAN+i-vector和StarGAN模型的转换语音的平均 MCD值分别为5.690、5.442、5.507、5.417和5.583, 本文提出的三种模型相比基准模型, 分别相对降低了4.36%、3.22%和4.80%, VARSGAN+i-vector模型相比StarGAN模型相对降低了2.97%, 表明相对生成对抗网络的结合 和i-vector的引入能够显著改善转换语音的合成自然度, 有助于提升转换语音的质量.

      进一步将上述16种转换情形按照源-目标说话人性别划分为具有统计性的四大类, 即同性别转换女-女、男-男和跨性别转换男-女、女-男, 在四类转换情形下不同模型的MCD值对比如图5所示.

      图  5  四类转换情形下不同模型的MCD值对比

      Figure 5.  Comparison of MCD of different models for four conversion cases

      从实验结果的进一步对比分析可得, 本文提出的方法 VARSGAN+i-vector在跨性别转换下, 女-男类别下的平均 MCD值比男-女类别下的平均MCD值相对低4.58%, 表明女性向男性的转换性能稍好于男性向女性的转换, 而这一现象, 在基准系统VAWGAN、VARSGAN、VAWGAN+i-vector和 StarGAN中也不同程度地存在, 作者分析认为, 语音的发音主要 由基频和丰富的谐波分量构成, 即使同一语句, 由于不同性别说话人之间的基频和谐波结构存在差异较大[24-25], 会导致不同性别说话人之间的转换存在一定的性能差异.

    • 本文采用反映语音质量的平均意见得分 (Mean Opinion Score, MOS) 值和反映说话人个性相似度的ABX值来评测转换后语音. 主观评测人员为20名有语音信号处理研究背景的老师及硕士研究生, 为了避免主观倾向以及减少评测人员的工作量,从五种模型的各16种转换情形的35句转换语音 里面为每个人随机抽取一句,并将语句顺序进行系统置乱. 其中在ABX测试中, 评测人员还需同时测听转换语音相对应的源和目标说话人的语音.

      在MOS测试中, 评测人员根据听到的转换语音的质量对语音进行打分, 评分分为5个等级: 1分表示完全不能接受, 2分表示较差, 3分表示可接受, 4分表示较好, 5分表示非常乐意接受. 本文将16种转换情形划分为四类: 男-男, 男-女, 女-男, 女-女, 四类转换情形下五种模型的转换语音MOS值对比如图6所示,

      图  6  五种模型在不同转换类别下的MOS值对比

      Figure 6.  Comparison of MOS for different conversion categories in five models

      从实验结果对比分析可得, VAWGAN、VARSGAN、VAWGAN+i-vector、VARSGAN+i-vector和StarGAN的平均MOS值分别为 3.382、3.535、3.471、3.555和3.446. 相比基准模型, 本文三种模型的MOS值分别相对提高了4.52%、2.63%、5.12%, VARSGAN+i-vector相比StarGAN相对提高了3.16%, 表明本文提出的相对生成对抗网络和i-vector的引入能够有效地改善合成语音的自然度, 提高听觉质量.

      在 ABX 测试中, 评测人员测评A、B、X三组语音, 其中, A 代表源说话人语音, B代表目标说话人语音, X 为转换后得到的语音, 评测人员判断转换后的语音更加接近源语音还是目标语音. 一般将 16 种转换情形 划分为同性转换和异性转换. 五种模型在同性转换下的 ABX 测试结果如图7所示, 异性转换下的 ABX 测试结果如图8所示.

      图  7  同性转换情形下五种模型转换语音的ABX图

      Figure 7.  ABX test results of five models for intra-gender

      图  8  异性转换情形下五种模型转换语音的ABX图

      Figure 8.  ABX test results of five models for inter-gender

      其中, A(sure) 表示转换语音完全确定是源说话人, A(not sure) 表示转换语音像源说话人但不完全确定, B(not sure) 表示转换语音像目标说话人但不完全确定, B(sure) 表示转换语音像目标说话人且完全确定. 在五种模型中, 没有评测人员认为转换后的语音确定是源说话人, 因此A(sure) 没有得分, 即在图中没有比例显示. 在评测结果分析中, 将B(not sure) 和B(sure) 的比例之和作为转换语音更像目标说话人的衡量指标.

      图7图8所示, 五种模型在异性转换下的说话人个性相似度均优于同性转换下的说话人个性相似度, 其中,在同性转换情形下,VAWGAN、VARSGAN、VAWGAN+i-vector、VARSGAN+i-vector和StarGAN的ABX值的比例分别为 70.3%、74.1%、78.4%、79.7%和73.5%, 相比基准模型, 本文三种模型分别提升了3.8%, 8.1%和6.2%, VARSGAN+i-vector 相比StarGAN模型提升了4.4%. 在异性转换情形下, 五种模型 的ABX值的比例分别为82.8%、86.2%、89.4%、90.6%和83.8%, 相比基准模型, 本文三种模型分别提升了3.4%、6.6%和7.8%, VARSGAN+i-vector相比StarGAN提升了6.8%. 在同性和异性两种情形下, 本文提出的三种模型相比基准模型,平均ABX值分别 提升了3.6%、7.35%和8.6%, VARSGAN+i-vector模型相比StarGAN模型提升了5.6%, 分析认为, 相对生成对抗网络的改进不仅 有效地改善了合成语音的自然度, 而且也有助于说话人个性相似度的提高; 结合传统说话人编码one-hot实现多对多语音转换 的同时, 在解码阶段融入含有丰富说话人个性信息的特征i-vector, 能够有效增强目标说话人的个性信息, 显著提升说话人的 个性相似度; 本文提出的两方面改进点的有效结合, 能够显著改善模型的性能.

      综上分析可得, VARSGAN+i-vector 模型相比基准模型 VAWGAN 和 StarGAN, 平均 MOS 值相对提高了5.12%和3.16%,平均 ABX 值提升了8.6%和5.6%, 表明本文提出的相对生成对抗网络和 i-vector 的引入能够显著提高合成语音的自然度和个性相似度.

    • 本文提出一种基于VARSGAN+i-vector的语音转换模型, 在该方法中, 利用RSGAN 替代基准模型中的 WGAN, 改进了语音转换模型中生成对抗网络的性能, 从而生成语音自然度更好的转换语音. 进一步将 i-vector 引入基于 VARSGAN 的语音转换模型, 在模型训练和转换过程中利用i-vector 表征说话人的个性信息, 进一步提升转换语音的个性相似度. 充分的客观和主观实验表明, 相比于基准模型 VAWGAN 和 StarGAN, 本文提出的方法在有效改善转换语音的合成质量的同时也显著提升了说话人个性相似度, 实现了高质量的语音转换. 下一步的工作将研究序列到序列的语音转换, 进一步考虑韵律特征的建模和转换, 此外, 降低对训练数据量的需求以实现小样本语音转换[26], 也是课题组后续进一步研究的关注点和探索方向, 这也是该技术真正进入工业领域需要接受的挑战之一.

WeChat 关注分享

返回顶部

目录

    /

    返回文章
    返回