2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于i向量和变分自编码相对生成对抗网络的语音转换

李燕萍 曹盼 左宇涛 张燕 钱博

李燕萍, 曹盼, 左宇涛, 张燕, 钱博. 基于i向量和变分自编码相对生成对抗网络的语音转换. 自动化学报, 2022, 48(7): 1824−1833 doi: 10.16383/j.aas.c190733
引用本文: 李燕萍, 曹盼, 左宇涛, 张燕, 钱博. 基于i向量和变分自编码相对生成对抗网络的语音转换. 自动化学报, 2022, 48(7): 1824−1833 doi: 10.16383/j.aas.c190733
Li Yan-Ping, Cao Pan, Zuo Yu-Tao, Zhang Yan, Qian Bo. Voice conversion based on i-vector with variational autoencoding relativistic standard generative adversarial network. Acta Automatica Sinica, 2022, 48(7): 1824−1833 doi: 10.16383/j.aas.c190733
Citation: Li Yan-Ping, Cao Pan, Zuo Yu-Tao, Zhang Yan, Qian Bo. Voice conversion based on i-vector with variational autoencoding relativistic standard generative adversarial network. Acta Automatica Sinica, 2022, 48(7): 1824−1833 doi: 10.16383/j.aas.c190733

基于i向量和变分自编码相对生成对抗网络的语音转换

doi: 10.16383/j.aas.c190733
基金项目: 国家自然科学青年基金(61401227), 国家自然科学基金(61872199, 61872424), 金陵科技学院智能人机交互科技创新团队建设专项(218/010119200113)资助
详细信息
    作者简介:

    李燕萍:南京邮电大学通信与信息工程学院副教授. 2009年获南京理工大学博士学位. 主要研究方向为语音转换和说话人识别. 本文通信作者. E-mail: liyp@njupt.edu.cn

    曹盼:南京邮电大学通信与信息工程学院硕士研究生. 2017年获淮阴师范学院学士学位. 主要研究方向为语音转换和深度学习. E-mail: abreastpc@163.com

    左宇涛:南京邮电大学通信与信息工程学院硕士研究生. 主要研究方向为语音转换. E-mail: zuoyt@chinatelecom.cn

    张燕:金陵科技学院软件工程学院教授. 2017年获南京理工大学博士学位. 主要研究方向为模式识别和领域软件工程. E-mail: zy@jit.edu.cn

    钱博:南京电子技术研究所高级工程师. 2007年获南京理工大学博士学位. 主要研究方向为模式识别和人工智能. E-mail: sandson6@163.com

Voice Conversion Based on i-vector With Variational Autoencoding Relativistic Standard Generative Adversarial Network

Funds: Supported by National Natural Science Foundation of Youth Foundation of China (61401227), National Natural Science Foundation of China (61872199, 61872424), and Special Project of Intelligent Human-Computer Interaction Technology Innovation Team Building of Jinling Institute of Technology (218/010119200113)
More Information
    Author Bio:

    LI Yan-Ping Associate professor at the School of Communication and Information Engineering, Nanjing University of Posts and Telecommunications. She received her Ph.D. degree from Nanjing University of Science and Technology in 2009. Her interest research covers voice conversion and speaker recognition. Corresponding author of this paper

    CAO Pan Master student at the School of Communication and Information Engineering, Nanjing University of Posts and Telecommunications. She received her bachelor degree from Huaiyin Normal University in 2017. Her research interest covers voice conversion and deep learning

    ZUO Yu-Tao Master student at the School of Communication and Information Engineering, Nanjing University of Posts and Telecommunications. His main research interest is voice conversion

    ZHANG Yan Professor at the School of Software Engineering, Jinling Institute of Technology. She received her Ph.D. degree from Nanjing University of Science and Technology in 2017. Her research interest covers pattern recognition and domain software engineering

    QIAN Bo Senior engineer at Nanjing Institute of Electronic Technology. He received his Ph.D. degree from Nanjing University of Science and Technology in 2007. His research interest covers pattern recognition and artificial intelligence

  • 摘要: 提出一种基于i向量和变分自编码相对生成对抗网络的语音转换方法, 实现了非平行文本条件下高质量的多对多语音转换. 性能良好的语音转换系统, 既要保持重构语音的自然度, 又要兼顾转换语音的说话人个性特征是否准确. 首先为了改善合成语音自然度, 利用生成性能更好的相对生成对抗网络代替基于变分自编码生成对抗网络模型中的Wasserstein生成对抗网络, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 克服了Wasserstein生成对抗网络性能不稳定和收敛速度较慢等问题. 进一步为了提升转换语音的说话人个性相似度, 在解码阶段, 引入含有丰富个性信息的i向量, 以充分学习说话人的个性化特征. 客观和主观实验表明, 转换后的语音平均梅尔倒谱失真距离值较基准模型降低4.80%, 平均意见得分值提升5.12%, ABX 值提升8.60%, 验证了该方法在语音自然度和个性相似度两个方面均有显著的提高, 实现了高质量的语音转换.
  • 语音转换是在保持语音内容不变的同时, 改变一个人的声音, 使之听起来像另一个人的声音[1-2]. 根据训练过程对语料的要求, 分为平行文本条件下的语音转换和非平行文本条件下的语音转换. 在实际应用中, 预先采集大量平行训练文本不仅耗时耗力, 而且在跨语种转换和医疗辅助系统中往往无法采集到平行文本, 因此非平行文本条件下的语音转换研究具有更大的应用背景和现实意义.

    性能良好的语音转换系统, 既要保持重构语音的自然度, 又要兼顾转换语音的说话人个性信息是否准确. 近年来, 为了改善转换后合成语音的自然度和说话人个性相似度, 非平行文本条件下的语音转换研究取得了很大进展, 根据其研究思路的不同, 大致可以分为3类, 第1类思想是从语音重组的角度, 在一定条件下将非平行文本转化为平行文本进行处理[3-4], 其代表算法包括两种, 一种是使用独立于说话人的自动语音识别系统标记音素, 另一种是借助文语转换系统将小型语音单元拼接成平行语音. 该类方法原理简单, 易于实现, 然而这些方法很大程度上依赖于自动语音识别或文语转换系统的性能; 第2类是从统计学角度, 利用背景说话人的信息作为先验知识, 应用模型自适应技术, 对已有的平行转换模型进行更新, 包括说话人自适应[5-6]和说话人归一化等. 但这类方法通常要求背景说话人的训练数据是平行文本, 因此并不能完全解除对平行训练数据的依赖, 还增加了系统的复杂性; 前两类通常只能为每个源−目标说话人对构建一个映射函数, 即一对一转换, 当存在多个说话人对时, 就需要构建多个映射函数, 增加系统的复杂性和运算量; 第3类是解卷语义和说话人个性信息的思想, 转换过程可以理解为源说话人语义信息和目标说话人个性信息的重构, 其代表算法包括基于条件变分自编码器 (Conditional variational auto-Encoder, C-VAE)[7]方法、基于变分自编码生成对抗网络(Variational autoencoding wasserstein generative adversarial network, VAWGAN)[8]方法和基于星型生成对抗网络 (Star generative adversarial network, StarGAN)[9]方法. 这类方法直接规避了非平行文本对齐的问题, 实现将多个源−目标说话人对的转换整合在一个转换模型中, 提供了多说话人向多说话人转换的新框架, 即多对多转换, 成为目前非平行文本条件下语音转换的主流方法.

    基于C-VAE模型的语音转换方法, 其中的编码器对语音实现语义和个性信息的解卷, 解码器通过语义和说话人身份标签完成语音的重构, 从而解除对平行文本的依赖, 实现多说话人对多说话人的转换. 但是由于C-VAE基于理想假设, 认为观察到的数据通常遵循高斯分布, 导致解码器的输出语音过度平滑, 转换后的语音质量不高. 基于循环一致生成对抗网络的语音转换方法[10]可以在一定程度上解决过平滑问题, 但是该方法只能实现一对一的语音转换.

    Hsu等[8]提出的VAWGAN模型通过在C-VAE中引入Wasserstein生成对抗网络(Wasserstein generative adversarial network, WGAN)[11], 将 VAE的解码器指定为WGAN的生成器来优化目标函数, 一定程度上提升转换语音的质量, 然而Wasserstein生成对抗网络仍存在一些不足之处, 例如性能不稳定, 收敛速度较慢等. 同时, VAWGAN使用说话人身份标签one-hot向量建立语音转换系统, 而该指示标签无法携带更为丰富的说话人个性信息, 因此转换后的语音在个性相似度上仍有待提升.

    针对上述问题, 本文从以下方面提出改进意见: 1)通过改善生成对抗网络[12]的性能, 进一步提升语音转换模型生成语音的清晰度和自然度; 2)通过引入含有丰富说话人个性信息的表征向量, 提高转换语音的个性相似度. 2019年, Baby等[13]通过实验证明, 相比于WGAN, 相对生成对抗网络(Relativistic standard generative adversarial networks, RSGAN)生成的数据样本更稳定且质量更高. 此外, 在说话人确认[14-16]和说话人识别[17]领域的相关实验证明, i向量(Identity-vector, i-vector)可以充分表征说话人个性信息. 鉴于此, 本文提出基于i向量和变分自编码相对生成对抗网络的语音转换模型(Variational autoencoding RSGAN and i-vector, VARSGAN + i-vector), 该方法将RSGAN应用在语音转换领域, 利用生成性能更好的相对生成对抗网络替换VAWGAN模型中的Wasserstein生成对抗网络, 同时在解码网络引入含有丰富说话人个性信息的i向量辅助语音的重构. 充分的客观和主观实验表明, 本文方法在有效改善合成语音自然度的同时进一步提升了说话人个性相似度, 实现了非平行文本条件下高质量的多对多语音转换.

    基于VAWGAN语音转换模型利用WGAN[11]提升了C-VAE的性能, 其中C-VAE的解码器部分由WGAN中的生成器代替. VAWGAN模型由编码器、生成器和鉴别器3部分构成. 完整的语音转换模型可表示为:

    $$ \begin{array}{l} \hat {\boldsymbol x} = \hat f( {\boldsymbol{x,y}}) = {f_\theta }( {\boldsymbol{z,y}}) = {f_\theta }({f_\phi }( {\boldsymbol{x}}),{\boldsymbol{y}}) \end{array} $$ (1)

    式中, $ {f_\phi }( \cdot ) $表示编码过程, 通过编码过程将输入语音$\boldsymbol x$ 转换为独立于说话人的隐变量$\boldsymbol z$, 认为是与说话人个性特征无关的语义信息. $ {f_\theta }( \cdot ) $表示解码过程, 将说话人标签$\boldsymbol y$拼接至隐变量$ z $上构成联合特征${ ({\boldsymbol{z,y}})}$, 在解码过程中利用联合特征$( {\boldsymbol{z,y}})$重构出特定说话人相关的语音, 然后将真实语音$\boldsymbol x$和生成语音$\hat {\boldsymbol x}$送入鉴别器判别真假. 同时, 利用表征说话人身份的one-hot标签$\boldsymbol y$, VAWGAN 模型可以根据$\boldsymbol y$的数值对其表示的特定说话人进行语音转换, 从而实现多说话人对多说话人的语音转换.

    为实现语音转换, WGAN通过Wassertein目标函数[8]来代替生成对抗网络中的JS(Jensen-Shannon)散度来衡量生成数据分布和真实数据分布之间的距离, 在一定程度上改善了传统生成对抗网络[18]训练不稳定的问题.

    综上分析可知, VAWGAN利用潜在语义内容$\boldsymbol z$和说话人标签$\boldsymbol y$重构任意目标说话人的语音, 实现了非平行文本条件下多对多的语音转换. 该基准模型中WGAN采用权重剪切操作来强化Lipschitz连续性限制条件, 但仍存在训练不易收敛, 性能不稳定等问题, 在数据生成能力上仍存在一定的改进空间. 此外, VAWGAN利用one-hot标签表征说话人身份, 而one-hot标签只是用于指示不同说话人, 无法携带更为丰富的说话人个性信息. 通过提升WGAN的性能或找到生成性能更加强大的生成对抗网络, 有望获得更好自然度的语音, 进一步引入含有丰富说话人个性信息的表征向量能够有助于提升说话人个性相似度.

    为进一步提升VAWGAN的性能, 通过找到一个生成性能更加强大的GAN替换WGAN是本文的一个研究出发点. 2019年Baby等[13]通过实验证明相比于最小二乘GAN[19]和WGAN[11], RSGAN生成的数据样本更稳定且质量更高. RSGAN由标准生成对抗网络发展而来, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 在训练生成器时真实样本也能参与训练. 为了将鉴别器的输出限制在[0, 1]中, 标准生成对抗网络常常在鉴别器的最后一层使用sigmoid激活函数, 因此标准生成对抗网络鉴别器定义为:

    $$ \begin{array}{l} D(x) = {\rm{sigmoid}}(C(x)) \end{array} $$ (2)

    式中, $ C(x) $为未经过sigmoid函数激励的鉴别器输出. 由于鉴别器的输出由真实样本和生成样本共同决定, 因此可以使用下述的方法构造相对鉴别器:

    $$ \begin{array}{l} D(\tilde x) = {\rm{sigmoid}}(C({x_r}) - C({x_f})) \end{array} $$ (3)
    $$ \begin{array}{l} {D_{rev}}(\tilde x) = {\rm{sigmoid}}(C({x_f}) - C({x_r})) \end{array} $$ (4)

    式中, $ {x_r} $表示真实样本, $ {x_r} \in P $, $ {x_f} $表示生成样本, $ {x_f} \in Q $, $ D(\tilde x) $表示真实样本比生成样本更真实的概率, $ {D_{rev}}(\tilde x) $表示生成样本比真实样本更真实的概率. 经过如下推导:

    $$ \begin{split} {1 - {D_{rev}}(\tilde x)} =& 1 - {\rm{sigmoid}}(C({x_f}) - C({x_r}))=\\ & {\rm{sigmoid}}(C({x_r}) - C({x_f}))= D(\tilde x) \end{split} $$ (5)

    可得

    $$ \begin{array}{l} \ln (D(\tilde x)) = \ln (1 - {D_{rev}}(\tilde x)) \end{array} $$ (6)

    进而可得RSGAN的鉴别器和生成器的目标函数:

    $$ \begin{array}{l} {L_D} = - {{\rm{E}}_{({x_r},{x_f})\sim(P,Q)}}[\ln ({\rm{sigmoid}}(C({x_r}) - C({x_f})))] \end{array} $$ (7)
    $$ \begin{array}{l} {L_G} = - {{\rm{E}}_{({x_r},{x_f})\sim(P,Q)}}[\ln ({\rm{sigmoid}}(C({x_f}) - C({x_r})))] \end{array} $$ (8)

    式中, sigmoid表示鉴别器最后一层使用sigmoid激活函数.

    综上分析可知, 相比于WGAN, RSGAN生成的数据样本更稳定且质量更高, 若将RSGAN应用到语音转换中, 通过构造相对鉴别器的方式, 使得鉴别器的输出依赖于真实样本和生成样本间的相对值, 在训练生成器时真实样本也能参与训练, 从而改善鉴别器中可能存在的偏置情况, 使得训练更加稳定, 性能得到提升, 并且把真实样本引入到生成器的训练中, 可以加快GAN的收敛速度. 鉴于此, 本文提出利用RSGAN替换WGAN, 构建基于变分自编码相对生成对抗网络(Variational autoencoding RSGAN, VARSGAN)的语音转换模型, 并引入可以充分表征说话人个性信息的i向量特征, 以期望在改善合成语音自然度的同时, 进一步提升转换语音的个性相似度.

    通过引入含有丰富说话人个性信息的表征向量, 从而提升转换语音的个性相似度是本文在上述研究基础上进一步的探索. Dehak等[14]提出的说话人身份i向量, 可以充分表征说话人的个性信息. i向量是在高斯混合模型−通用背景模型(Gaussian mixture model-universal background model, GMM-UBM)[15]超向量和信道分析的基础上提出的一种低维定长特征向量. 对于p维的输入语音, GMM-UBM模型采用最大后验概率算法对高斯混合模型中的均值向量参数进行自适应可以得到GMM超向量. 其中, GMM-UBM模型可以表征背景说话人整个声学空间的内部结构, 所有说话人的高斯混合模型具有相同的协方差矩阵和权重参数. 由于说话人的语音中包含了个性差异信息和信道差异信息, 因此全局GMM的超向量可以定义为:

    $$ \begin{array}{l}{ \boldsymbol S} ={\boldsymbol m} + T\omega \end{array} $$ (9)

    式中, $\boldsymbol S$表示说话人的超向量, $\boldsymbol m$表示与特定说话人和信道无关的均值超向量, 即通用背景模型下的超向量, $ T $是低维的全局差异空间矩阵, 表示背景数据的说话人空间, 包含了说话人信息和信道信息在空间上的统计分布, 也称为全局差异子空间. $\omega = ({\omega _1},{\omega _2},\cdots,{\omega _q})$ 是包含整段语音中的说话人信息和信道信息的全局变化因子, 服从标准正态分布${\rm{N}}(0,{\rm{ }}I)$, 称之为i向量, 即身份特征i向量.

    首先, 将经过预处理的训练语料进行特征提取得到梅尔频率倒谱系数, 将梅尔频率倒谱参数输入高斯混合模型进行训练, 通过期望最大化算法得到基于高斯混合模型的通用背景模型, 根据通用背景模型得到均值超向量${\boldsymbol{m }}$, 通过最大后验概率均值自适应得到说话人的超向量${\boldsymbol{S}}$. 同时, 根据训练所得的通用背景模型提取其鲍姆−韦尔奇统计量, 通过期望最大化算法估计获得全局差异空间矩阵$ T $. 最终, 通过上述求得的高斯混合模型的超向量${\boldsymbol{S}}$、通用背景模型的均值超向量${\boldsymbol{ m}}$、全局差异空间矩阵$ T $可以得到i向量. 由于上述得到的i向量同时含有说话人信息和信道信息, 本文采用线性判别分析和类协方差归一化对i向量进行信道补偿, 最终生成鲁棒的低维i向量.

    基于以上分析, 本文提出VARSGAN + i-vector的语音转换模型, 在解码阶段融入表征说话人个性信息的i向量, 将one-hot标签和i向量拼接至语义特征上构成联合特征重构出指定说话人相关的语音. 其中, i向量含有丰富的说话人个性信息, 能够与传统编码中的one-hot标签相互补充, 互为辅助, 前者为语音的合成提供丰富的说话人信息, 后者作为精准的标签能够准确区分不同说话人, 相辅相成有效提升转换后语音的个性相似度, 进一步实现高质量的语音转换. 基于VARSGAN + i-vector模型的整体流程如图1所示, 分为训练阶段和转换阶段.

    图 1  基于VARSGAN + i-vector 模型的整体流程图
    Fig. 1  Framework of voice conversion based on VARSGAN + i-vector network
    2.3.1   训练阶段

    获取训练语料, 训练语料由多名说话人的语料组成, 包含源说话人和目标说话人; 将所述的训练语料通过WORLD[20]语音分析模型, 提取出各说话人语句的频谱包络、基频和非周期性特征; 利用第2.2节的i向量提取方法获得表征各个说话人个性信息的i向量${\boldsymbol{i}}$; 将频谱包络特征${\boldsymbol{x}}$、说话人标签${\boldsymbol{y }}$、i向量${\boldsymbol{i}}$ 一同输入VARSGAN + i-vector模型进行训练, VARSGAN + i-vector模型是由C-VAE和RSGAN结合而成, 将变分自编码器的解码器指定为RSGAN的生成器来优化目标函数. 原理如图2所示.

    图 2  VARSGAN+i-vector 模型原理示意图
    Fig. 2  Schematic diagram of VARSGAN+i-vector network

    该模型完整的目标损失函数为:

    $$ \begin{array}{l} {J_{{\rm{VARSGAN}} \;+\; {\rm{i}} \text{-} {\rm{vector}}}} = L(x;\phi ,\theta ) + \alpha {J_{{\rm{RSGAN}}}} \end{array} $$ (10)

    式中, $ L(x;\phi ,\theta ) $为C-VAE部分的目标函数:

    $$ \begin{split} L(x;\phi ,\theta ) = - {D_{{\rm{KL}}}}({q_\phi }(z|x)||{p_\theta }(z))+\\ \qquad\qquad\quad{{\rm{E}}_{{q_\phi }(z|x)}}[\ln {p_\theta }(x|z,y,i)] \end{split} $$ (11)

    式中, ${D_{{\rm{KL}}}}$表示KL(Kullback-Leibler)散度, $ {q_\phi }(z|x) $表示编码网络, 该网络将频谱特征${\boldsymbol{x}}$编码成潜在变量${\boldsymbol{z}}$. $ {p_\theta }(x|z,y,i) $表示解码网络, 将联合特征向量尽可能重构${\boldsymbol{x}}$ 就可以使式(11)的期望尽可能大. $ {p_\theta }(z) $为潜在变量${\boldsymbol{z}}$ 的先验分布, 该分布为标准多维高斯分布. 使用随机梯度下降法来更新C-VAE中的网络模型参数, 其目标是$ \max \left\{ {L(x;\phi ,\theta )} \right\} $.

    式(10)中, $ \alpha $是调节RSGAN损失的系数, ${J_{\rm{{RSGAN}}}}$表示RSGAN部分的目标函数, 由生成器和鉴别器的损失函数构成, 其中RSGAN的生成器中结合了表征各说话人个性信息的i向量i. 由式(7)和式(8)可知, 生成器网络的损失函数用$ {L_G} $来表示:

    $$ \begin{split} {L_G} =& - \alpha {{\rm{E}}_{(x,z)\sim({p_{data}},{q_\phi }(z|x))}}\\ & [\ln ({\rm{sigmoid}}({D_\psi } ({G_\theta }(z,y,i)) - {D_\psi }(x)))] -\\& {{\rm{E}}_{{q_\phi }(z|x)}}[\ln {p_\theta }(x|z,y,i)] \\[-3pt] \end{split} $$ (12)

    式中, $ {G_\theta } $表示生成器, $ {D_\psi } $表示鉴别器, $ \theta $$ \psi $分别是生成器和鉴别器的相关参数, $ {G_\theta }(z,y,i) $表示重构的频谱特征, $ {D_\psi}({G_\theta }(z,y,i) $)表示鉴别器对重构的频谱特征判别真假.

    鉴别器网络的损失函数用$ {L_D} $表示:

    $$ \begin{split} {L_D} =& - {{\rm{E}}_{(x,z)\sim({p_{data}},{q_\phi }(z|x))}}[\ln ({\rm{sigmoid}}({D_\psi }(x)-\\ &{D_\psi }({G_\theta }(z,y,i))))]\\[-10pt]\end{split} $$ (13)

    添加梯度惩罚项后, 鉴别器的损失函数更新为:

    $$ \begin{split} {L_D} =& - {{\rm{E}}_{(x,z)\sim({p_{data}},{q_\phi }(z|x))}}[\ln ({\rm{sigmoid}}({D_\psi }(x)-\\ &{D_\psi }({G_\theta }(z,y,i))))]+\\ &\lambda {{\rm{E}}_{\hat x\sim{P_{\hat x}}}}{[{\left\| {{\nabla _{\hat x}}D(\hat x)} \right\|_2} - 1]^2} \\[-10pt] \end{split} $$ (14)

    式中, ${{\rm{E}}_{\hat x\sim{P_{\hat x}}}}{[{\left\| {{\nabla _{\hat x}}D(\hat x)} \right\|_2} - 1]^2}$为梯度惩罚项, 能够加快收敛速度, 使得训练过程更为稳定[13, 21], $ \lambda $表示梯度惩罚参数. 训练过程中, 生成器网络的优化目标是$ \min \{ {L_G}\} $, 鉴别器网络的优化目标是$ \min \{ {L_D}\} $, 直至设置的迭代次数, 得到训练好的VARSGAN + i-vector网络.

    构建从源说话人语音对数基频$ \ln {f_0} $到目标说话人对数基频$ \ln {f_0}^\prime $的转换函数:

    $$ \begin{array}{l} \ln {f_0}^\prime = \mu ' + \dfrac{{\sigma '}}{\sigma }(\ln {f_0} - \mu ) \end{array} $$ (15)

    式中, $ \mu $$ \sigma $分别表示源说话人的基频在对数域的均值和标准差, $ \mu ' $$ \sigma ' $分别表示目标说话人的基频在对数域的均值和标准差.

    2.3.2   转换阶段

    将待转换语料中源说话人的语音通过WORLD[20]语音分析模型提取出不同语句的频谱包络特征$ x $、基频和非周期性特征; 将频谱包络特征$ x $、说话人标签$ y $、i向量$ i $输入训练好的VARSGAN + i-vector模型, 从而重构出目标说话人频谱包络特征$ \hat x $; 通过式(15) 表示的基频转换函数, 将源说话人对数基频$ \ln {f_0} $转换为目标说话人的对数基频$ \ln {f_0}^\prime $; 非周期性特征保持不变. 将重构的目标说话人频谱包络特征$ \hat x $、目标说话人的对数基频$ \ln {f_0}^\prime $和源说话人的非周期性特征通过WORLD语音合成模型, 合成得到转换后的说话人语音.

    本实验采用VCC2018[22]语料库, 该语料库是由国际行业内挑战赛提供的标准数据库, 为评估不同科研团队的语音转换系统的性能提供一个通用标准. 链接为http://www.vc-challenge.org/vcc2018/index.html, 其中的非平行文本语料库包括4名源说话人(包括2名男性和2名女性), 分别是VCC2SF3、VCC2SF4、VCC2SM3和VCC2SM4; 4名目标说话人(包括2名男性和2名女性), 分别是VCC2TF1、VCC2TF2、VCC2TM1和VCC2-TM2. 每个说话人在训练时均选取81句训练语音, 在转换时选取35句测试语音进行转换, 一共有16种转换情形. 将上述8个说话人的训练语料输入Kaldi语音识别工具中预训练好的模型来提取i向量特征, 分别得到表征上述8个人个性信息的各自100维的i向量.

    实验系统在Python平台环境下实现. 在Intel(R) Xeon(R) CPU E5-2660v4@2.00GHz, NVIDIA Tesla V100 (reva1)的Linux服务器上运行, 对语料库中的8个说话人的语音基于5种模型进行客观和主观评测, 将VAWGAN[8]作为本文的基准模型与本文提出的改进模型VARSGAN、VAWGAN + i-vector和VARSGAN + i-vector进行纵向对比, 并进一步与StarGAN模型[9]进行横向对比, 这5种模型都是实现非平行文本条件下的多对多转换.

    本文使用WORLD分析/合成模型提取语音参数, 包括频谱包络特征、非周期性特征和基频, 由于FFT长度设置为1024, 因此得到的频谱包络和非周期性特征均为1024 /2 + 1 = 513维. 使用VARSGAN + i-vector模型转换频谱包络特征, 使用传统的高斯归一化的转换方法转换对数基频, 非周期性特征保持不变. 在VARSGAN + i-vector模型中, 所述编码器、生成器、鉴别器均采用二维卷积神经网络, 激活函数采用LReLU函数[23]. 图3为VARSGAN + i-vector模型网络结构图, 其中编码器由5个卷积层构成, 生成器由4个反卷积层构成, 鉴别器由3个卷积层和1个全连接层构成.

    图 3  VARSGAN + i-vector 模型网络结构示意图
    Fig. 3  Structure of VARSGAN + i-vector network

    图3中, hwc分别表示高度、宽度和通道数, kcs分别表示卷积层的内核大小、输出通道数和步长, Input表示输入, Output表示输出, Real / Fake表示鉴别器判定为真或假, Conv表示卷积, Deconv表示反卷积 (转置卷积), Fully Connected表示全连接层, Batch Norm表示批归一化. 实验中隐变量$ z $的维度, 在借鉴基于变分自编码器模型的相关文献基础上结合实验调参, 设置为128. 实验中RSGAN的损失系数$ \alpha $设置为50, 梯度惩罚参数$ \lambda $设置为10, 训练批次大小设置为16, 训练周期为200, 学习率为0.0001, 最大迭代次数为200000. 本文模型VARSGAN + i-vector训练约120000轮损失函数收敛, 能达到稳定的训练效果, 而基准模型耗时相对较长, 并且得到的转换性能不够稳定.

    本文选用梅尔倒谱失真距离(Mel-cepstral distortion, MCD)作为客观评价标准, 通过MCD值来衡量转换后的语音与目标语音的频谱距离[1-2], MCD计算公式如下:

    $$ \begin{array}{l} {\rm{MCD}} = \dfrac{{10}}{{\ln 10}}\sqrt {2\sum\limits_{d = 1}^D {{{\left( {{c_d} - {{\hat c}_d}} \right)}^2}} } \end{array} $$ (16)

    式中, $ {c_d} $$ {\hat c_d} $分别是目标说话人语音和转换后语音的第$ d $维梅尔倒谱系数, $ D $是梅尔倒谱系数的维数. 计算MCD值时对16组转换情形分别选取35句转换语音进行统计. 图4为16种转换情形下5种模型的转换语音的MCD值对比.

    图 4  16 种转换情形下5种模型的转换语音的MCD值对比
    Fig. 4  Average MCD of five models for 16 conversion cases

    由图4可知, 16种转换情形下VAWGAN、VARSGAN、VAWGAN + i-vector、VARSGAN + i-vector和StarGAN模型的转换语音的平均MCD值分别为5.690、5.442、5.507、5.417和5.583. 本文提出的3种模型相比基准模型, 分别相对降低了4.36%、3.22%和4.80%. VARSGAN + i-vector模型相比StarGAN模型相对降低了2.97%. 表明相对生成对抗网络的结合和i向量的引入能够显著改善转换语音的合成自然度, 有助于提升转换语音的质量.

    进一步将上述16种转换情形按照源−目标说话人性别划分为具有统计性的4大类, 即同性别转换女−女、男−男和跨性别转换男−女、女−男. 4大类转换情形下不同模型的MCD值对比如图5所示.

    图 5  4大类转换情形下不同模型的MCD值对比
    Fig. 5  Comparison of MCD of different models for four conversion cases

    进一步分析实验结果可得, 本文提出的方法VARSGAN + i-vector在跨性别转换下, 女−男类别下的平均MCD值比男−女类别下的平均MCD值相对低4.58%, 表明女性向男性的转换性能稍好于男性向女性的转换. 而这一现象在基准系统VAWGAN、VARSGAN、VAWGAN + i-vector和 StarGAN中也不同程度地存在. 原因主要是, 语音的发音主要由基频和丰富的谐波分量构成, 即使同一语句, 由于不同性别说话人之间的基频和谐波结构存在差异较大[24-25], 会导致不同性别说话人之间的转换存在一定的性能差异.

    本文采用反映语音质量的平均意见得分(Mean opinion score, MOS)值和反映说话人个性相似度的ABX值来评测转换后语音. 主观评测人员为20名有语音信号处理研究背景的老师及硕士研究生, 为了避免主观倾向以及减少评测人员的工作量, 从5种模型的各16种转换情形的35句转换语音里面为每个人随机抽取一句, 并将语句顺序进行系统置乱. 其中在ABX测试中, 评测人员还需同时测听转换语音相对应的源和目标说话人的语音.

    在MOS测试中, 评测人员根据听到的转换语音的质量对语音进行打分, 评分分为5个等级: 1分表示完全不能接受, 2分表示较差, 3分表示可接受, 4分表示较好, 5分表示非常乐意接受. 本文将16种转换情形划分为4类: 男−男, 男−女, 女−男, 女−女, 4类转换情形下5种模型的转换语音MOS值对比如图6所示.

    图 6  5种模型在不同转换类别下的MOS值对比
    Fig. 6  Comparison of MOS for different conversion categories in five models

    通过分析实验结果可得, VAWGAN、VARSGAN、VAWGAN + i-vector、VARSGAN + i-vector和StarGAN的平均MOS值分别为3.382、3.535、3.471、3.555和3.446. 相比基准模型, 本文3种模型的MOS值分别相对提高了4.52%、2.63%和5.12%, VARSGAN + i-vector相比StarGAN提高了3.16%, 表明本文提出的相对生成对抗网络和i向量的引入能够有效地改善合成语音的自然度, 提高听觉质量.

    在ABX测试中, 评测人员测评A、B和X共3组语音, 其中A代表源说话人语音, B代表目标说话人语音, X为转换后得到的语音, 评测人员判断转换后的语音更加接近源语音还是目标语音. 一般将16种转换情形划分为同性转换和异性转换. 5种模型在同性转换下的ABX测试结果如图7所示, 异性转换下的ABX测试结果如图8所示.

    图 7  同性转换情形下5种模型转换语音的ABX图
    Fig. 7  ABX test results of five models for intra-gender
    图 8  异性转换情形下5种模型转换语音的ABX图
    Fig. 8  ABX test results of five models for inter-gender

    图8中, A (sure)表示转换语音完全确定是源说话人, A (not sure)表示转换语音像源说话人但不完全确定, B (not sure)表示转换语音像目标说话人但不完全确定, B (sure)表示转换语音像目标说话人且完全确定. 在5种模型中, 没有评测人员认为转换后的语音确定是源说话人, 因此A (sure)没有得分, 即在图中没有比例显示. 在评测结果分析中, 将B (not sure)和B (sure)的比例之和作为转换语音更像目标说话人的衡量指标.

    图7图8所示, 5种模型在异性转换下的说话人个性相似度均优于同性转换下的说话人个性相似度, 其中在同性转换情形下,VAWGAN、VARSGAN、VAWGAN + i-vector、VARSGAN + i-vector和StarGAN的ABX值的比例分别为 70.3%、74.1%、78.4%、79.7%和73.5%, 相比基准模型, 本文3种模型分别提升了3.8%、8.1%和6.2%, VARSGAN + i-vector 相比StarGAN模型提升了4.4%. 在异性转换情形下5种模型的ABX值的比例分别为82.8%、86.2%、89.4%、90.6%和83.8%, 相比基准模型, 本文3种模型分别提升了3.4%、6.6%和7.8%, VARSGAN + i-vector相比StarGAN提升了6.8%. 在同性和异性2种情形下, 本文提出的3种模型相比基准模型,平均ABX值分别提升了3.6%、7.35%和8.6%, VARSGAN + i-vector模型相比StarGAN模型提升了5.6%, 由分析可以看出, 相对生成对抗网络的改进不仅有效地改善了合成语音的自然度, 而且也有助于说话人个性相似度的提高; 结合传统说话人编码one-hot实现多对多语音转换的同时, 在解码阶段融入含有丰富说话人个性信息的特征i向量, 能够有效增强目标说话人的个性信息, 显著提升说话人的个性相似度. 因此, 本文方法能够显著改善模型的性能.

    综上所述, VARSGAN + i-vector 模型相比基准模型 VAWGAN和StarGAN, 平均MOS值相对提高了5.12%和3.16%, 平均ABX值提升了8.6%和5.6%, 表明本文提出的相对生成对抗网络和i向量的引入, 能够显著提高合成语音的自然度和个性相似度.

    本文提出一种基于VARSGAN + i-vector的语音转换模型, 该方法利用RSGAN 替代基准模型中的WGAN, 改进了语音转换模型中生成对抗网络的性能, 从而生成语音自然度更好的转换语音. 进一步将i向量引入基于VARSGAN的语音转换模型, 在模型训练和转换过程中利用i向量表征说话人的个性信息, 有效提升转换语音的个性相似度. 充分的客观和主观实验结果表明, 相比于基准模型 VAWGAN 和 StarGAN, 本文提出的方法在有效改善转换语音的合成质量的同时, 也显著提升了说话人个性相似度, 实现了高质量的语音转换. 今后工作将研究序列到序列的语音转换, 进一步考虑韵律特征的建模和转换, 此外, 降低对训练数据量的需求以实现小样本语音转换[26]也是课题组后续进一步研究的关注点和探索方向, 这也是该技术真正进入工业领域需要接受的挑战之一.

  • 图  1  基于VARSGAN + i-vector 模型的整体流程图

    Fig.  1  Framework of voice conversion based on VARSGAN + i-vector network

    图  2  VARSGAN+i-vector 模型原理示意图

    Fig.  2  Schematic diagram of VARSGAN+i-vector network

    图  3  VARSGAN + i-vector 模型网络结构示意图

    Fig.  3  Structure of VARSGAN + i-vector network

    图  4  16 种转换情形下5种模型的转换语音的MCD值对比

    Fig.  4  Average MCD of five models for 16 conversion cases

    图  5  4大类转换情形下不同模型的MCD值对比

    Fig.  5  Comparison of MCD of different models for four conversion cases

    图  6  5种模型在不同转换类别下的MOS值对比

    Fig.  6  Comparison of MOS for different conversion categories in five models

    图  7  同性转换情形下5种模型转换语音的ABX图

    Fig.  7  ABX test results of five models for intra-gender

    图  8  异性转换情形下5种模型转换语音的ABX图

    Fig.  8  ABX test results of five models for inter-gender

  • [1] Godoy E, Rosec O, Chonavel T. Voice conversion using dynamic frequency warping with amplitude scaling, for parallel or nonparallel corpora. IEEE Transactions on Audio, Speech and Language Processing, 2011, 20(4): 1313-1323
    [2] Toda T, Chen L H, Saito D, Villavicencio F, Wester M, Wu Z, et al. The voice conversion challenge 2016. In: Proceedings of the 2016 Interspeech. San Francisco, USA: 2016. 1632−1636
    [3] Dong M, Yang C, Lu Y, Ehnes J W, Huang D, Ming H, et al. Mapping frames with DNN-HMM recognizer for non-parallel voice conversion. In: Proceedings of the 2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). Hong Kong, China: IEEE, 2015. 488−494
    [4] Zhang M, Tao J, Tian J, Wang X. Text-independent voice conversion based on state mapped codebook. In: Proceedings of the 2008 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Las Vegas, USA: IEEE, 2008. 4605−4608
    [5] Nakashika T, Takiguchi T, Minami Y. Non-parallel training in voice conversion using an adaptive restricted boltzmann machine. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(11): 2032-2045 doi: 10.1109/TASLP.2016.2593263
    [6] Mouchtaris A, Van der Spiegel J, Mueller P. Nonparallel training for voice conversion based on a parameter adaptation approach. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(3): 952-963 doi: 10.1109/TSA.2005.857790
    [7] Hsu C C, Hwang H T, Wu Y C, Tsaoet Y, Wang H M. Voice conversion from non-parallel corpora using variational auto-encoder. In: Proceedings of the 2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA). Jeju, South Korea: IEEE, 2016. 1−6
    [8] Hsu C C, Hwang H T, Wu Y C, Tsao Y, Wang H M. Voice conversion from unaligned corpora using variational autoencoding Wasserstein generative adversarial networks. In: Proceedings of the 2017 Interspeech. Stockholm, Sweden, 2017. 3364−3368
    [9] Kameoka H, Kaneko T, Tanaka K, Hojo N. StarGAN-VC: Non-parallel many-to-many voice conversion using star generative adversarial networks. In: Proceedings of the 2018 IEEE Spoken Language Technology Workshop (SLT). Athens, Greece: IEEE, 2018. 266−273
    [10] Fang F, Yamagishi J, Echizen I, Lorenzo-Trueba J. High-quality nonparallel voice conversion based on cycle-consistent adversarial network. In: Proceedings of the 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, Canada: IEEE, 2018. 5279−5283
    [11] Arjovsky M, Chintala S, Bottou L. Wasserstein generative adversarial networks. In: Proceedings of the 34th International Conference on Machine Learning International Conference on Machine Learning. Sydney, Australia: ACM, 2017. 214−223
    [12] 王坤峰, 苟超, 段艳杰, 林懿伦, 郑心湖, 王飞跃. 生成式对抗网络GAN的研究进展与展望. 自动化学报, 2017, 43(3): 321-332

    Wang Kun-Feng, Gou Chao, Duan Yan-Jie, Lin Yi-Lun, Zheng Xin-Hu, Wang Fei-Yue. Generative Adversarial Networks: The State of the Art and Beyond. Acta Automatica Sinica, 2017, 43(3): 321-332.
    [13] Baby D, Verhulst S. Sergan. Speech enhancement using relativistic generative adversarial networks with gradient penalty. In: Proceedings of the 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton, United Kingdom: IEEE, 2019. 106−110
    [14] Dehak N, Kenny P J, Dehak R, Dumouchelet P, Ouellet P. Front-end factor analysis for speaker verification. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 19(4): 788-798
    [15] 汪海彬, 郭剑毅, 毛存礼, 余正涛. 基于通用背景-联合估计 (UB-JE) 的说话人识别方法. 自动化学报, 2018, 44(10): 1888-1895

    Wang Hai-Bin, Guo Jian-Yi, Mao Cun-Li, Yu Zheng-Tao. Speaker recognition based on universal Background-Joint Estimation (UB-JE). Acta Automatica Sinica, 2018, 44(10): 1888-1895
    [16] Matějka P, Glembek O, Castaldo F, Alam M J, Plchot O, Kenny P, et al. Full-covariance UBM and heavy-tailed PLDA in i-vector speaker verification. In: Proceedings of the 2011 IEEE International Conference on Acoustics, Speech and Signal Processing. Prague, Czech Republic: IEEE, 2011. 4828−4831
    [17] Kanagasundaram A, Vogt R, Dean D, Sridharan S, Mason M. I-vector based speaker recognition on short utterances. In: Proceedings of the 12th Annual Conference of the International Speech Communication Association. International Speech Communication Association (ISCA). Florence, Italy, 2011. 2341−2344
    [18] 张一珂, 张鹏远, 颜永红. 基于对抗训练策略的语言模型数据增强技术. 自动化学报, 2018, 44(5): 891-900

    Zhang Yi-Ke, Zhang Peng-Yuan, Yan Yong-Hong. Data augmentation for language models via adversarial training. Acta Automatica Sinica, 2018, 44(5): 891-900
    [19] Mao X, Li Q, Xie H, Lau R Y K, Wang Z, Smolley S P. Least squares generative adversarial networks. In: Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017. 2794−2802
    [20] Morise M, Yokomori F, Ozawa K. WORLD: a vocoder-based high-quality speech synthesis system for real-time applications. IEICE TRANSACTIONS on Information and Systems, 2016, 99(7): 1877-1884
    [21] Gulrajani I, Ahmed F, Arjovsky M, Dumoulin V, Courville A C. Improved training of wasserstein gans. In: Proceedings of the Advances in Neural Information Processing Systems. Leicester, United Kingdom: IEEE, 2017. 5767−5777
    [22] Lorenzo-Trueba J, Yamagishi J, Toda T, Satio D, Villavicencio F, Kinnunen T, et al. The voice conversion challenge 2018: Promoting development of parallel and nonparallel methods. In: Proceedings of the Odyssey 2018 The Speaker and Language Recognition Workshop. Les Sables d'Olonne, France: ISCA Speaker and Language Characterization Special Interest Group, 2018. 195−202
    [23] Maas A L, Hannun A Y, Ng A Y. Rectifier nonlinearities improve neural network acoustic models. Computer Science, 2013, 30(1): 1152-1160
    [24] 梁瑞秋, 赵力, 王青云. 语音信号处理(C++版). 北京: 机械工业出版社, 2018.

    Liang Rui-Qiu, Zhao Li, Wang Qing-Yun. Speech Signal Preprocessing (C++). Beijing: China Machine Press, 2018.
    [25] 张雄伟, 陈亮, 杨吉斌. 现代语音处理技术及应用. 北京: 机械工业出版社, 2003.

    Zhang Xiong-Wei, Chen Liang, Yang Ji-Bin. Modern Speech Processing Technology and Application. Beijing: China Machine Press, 2003.
    [26] Chou J C, Lee H Y. One-shot voice conversion by separating speaker and content representations with instance normalization. In: Proceedings of the 2019 Interspeech. Graz, Austria, 2019. 664−668
  • 期刊类型引用(1)

    1. 王琳,黄浩. 引入预训练表示混合矢量量化和CTC的语音转换. 计算机工程. 2024(04): 313-320 . 百度学术

    其他类型引用(6)

  • 加载中
图(8)
计量
  • 文章访问数:  1037
  • HTML全文浏览量:  201
  • PDF下载量:  112
  • 被引次数: 7
出版历程
  • 收稿日期:  2019-10-23
  • 录用日期:  2020-07-27
  • 网络出版日期:  2022-03-08
  • 刊出日期:  2022-07-01

目录

/

返回文章
返回