面向卷积混叠环境下的盲源分离新方法

解元; 邹涛; 孙为军; 谢胜利

doi:10.16383/j.aas.c211207

面向卷积混叠环境下的盲源分离新方法

doi: 10.16383/j.aas.c211207

解元^{1, 2,},
邹涛^1,,
孙为军^{3, 4,},
谢胜利^{5, 6,}

1.
广州大学机械与电气工程学院广州 510006
2.
物联网智能信息处理与系统集成教育部重点实验室广州 510006
3.
广东省物联网信息技术重点实验室广州 510006
4.
智能检测与制造物联教育部重点实验室广州 510006
5.
基于物联网技术的离散制造智能化学科创新引智基地广州 510006
6.
粤港澳离散制造智能化联合实验室广州 510006

基金项目: 国家重点研发计划(2018YFB1802400), 国家自然科学基金(62003095, 52171331)资助

详细信息

作者简介:
解元：广州大学机械与电气工程学院讲师. 主要研究方向为盲信号分离, 信号处理和机器学习. E-mail: yuanxiemath@hotmail.com

邹涛：广州大学机械与电气工程学院教授. 主要研究方向为工业过程建模与仿真, 模型预测控制, 先进过程控制和实时优化技术研究与应用. 本文通信作者. E-mail: tzou@gzhu.edu.cn

孙为军：广东省物联网信息技术重点实验室、智能检测与制造物联教育部重点实验室副教授. 主要研究方向为模式识别, 机器学习. E-mail: gdutswj@163.com

谢胜利：基于物联网技术的离散制造智能化学科创新引智基地、粤港澳离散制造智能化联合实验室教授. 主要研究方向为无线网络, 自动控制和盲信号处理. E-mail: shlxie@gdut.edu.cn

计量
- 文章访问数: 627
- HTML全文浏览量: 309
- PDF下载量: 199
- 被引次数: 8
出版历程
- 收稿日期: 2021-12-18
- 录用日期: 2022-10-18
- 网络出版日期: 2022-11-27
- 刊出日期: 2023-05-20

Novel Blind Source Separation Method for Convolutive Mixed Environment

XIE Yuan^{1, 2
,},
ZOU Tao^1
,,
SUN Wei-Jun^{3, 4
,},
XIE Sheng-Li^{5, 6
,}

1.
School of Mechanical and Electrical Engineering, Guangzhou University, Guangzhou 510006
2.
Key Laboratory of Intelligent Information Processing and System Integration of Internet of Things, Ministry of Education, Guangzhou 510006
3.
Guangdong Provincial Key Laboratory of Information Technology of Internet of Things, Guangzhou 510006
4.
Key Laboratory of Intelligent Detection and the Internet of Things in Manufacturing, Ministry of Education, Guangzhou 510006
5.
Discrete Manufacturing Intelligence Discipline Innovation and Talent Introduction Base Based on Internet of Things Technology, Guangzhou 510006
6.
Guangdong-Hong Kong-Macao Joint Laboratory for Smart Discrete Manufacturing, Guangzhou 510006

Funds: Supported by National Key Research and Development Project (2018YFB1802400) and National Natural Science Foundation of China (62003095, 52171331)

More Information

Author Bio:
XIE Yuan　Lecturer at the School of Mechanical and Electrical Engineering, Guangzhou University. His research interest covers blind signal separation, signal processing, and machine learning

ZOU Tao　Professor at the School of Mechanical and Electrical Engineering, Guangzhou University. His research interest covers industrial process modeling and simulation, model predictive control, advanced process control, and real-time optimization technology research and application. Corresponding author of this paper

SUN Wei-Jun　Associate professor of Guangdong Provincial Key Laboratory of Information Technology of Internet of Things, and Key Laboratory of Intelligent Detection and the Internet of Things in Manufacturing, Ministry of Education. His research interest covers pattern recognition and machine learning

XIE Sheng-Li　Professor of Discrete Manufacturing Intelligence Discipline Innovation and Talent Introduction Base Based on Internet of Things Technology, and Guangdong-Hong Kong-Macao Joint Laboratory for Smart Discrete Manufacturing. His research interest covers wireless networks, automatic control, and blind signal processing

摘要

摘要: 卷积混叠环境下的盲源分离(Blind source separation, BSS)是一个极具挑战性和实际意义的问题. 本文在独立分量分析框架下, 建立非负矩阵分解(Nonnegative matrix factorization, NMF)模型, 设计新的优化目标函数, 通过严格的数学理论推导, 得到新的模型参数更新规则; 并对解混叠矩阵进行标准化处理, 避免幅度歧义性问题; 在源信号的重构阶段, 通过实时更新非负矩阵分解模型参数, 避免源信号的排序歧义性问题. 实验结果验证了所提算法在分离中英文语音混叠信号、音乐混叠信号时的有效性和优越性.
- 盲源分离 /
- 卷积混叠 /
- 独立分量分析 /
- 非负矩阵分解
Abstract: Blind source separation (BSS) for convolutive mixed environment is a challenging and practical topic. In this paper, a nonnegative matrix factorization (NMF) model is established based on the framework of independent component analysis, and a new optimization objective function is designed. Through strict mathematical theory derivation, new model parameters update rules are obtained, and the demixing matrix is standardized to avoid the scale ambiguity. In the stage of source reconstruction, the permutation ambiguity can be avoided by updating the parameters of the NMF model in real time. Experimental results verify the effectiveness and superiority of the proposed algorithm in separating Chinese speech mixtures, English speech mixtures, and music signal mixtures.
- Blind source separation (BSS) /
- convolutive mixtures /
- independent component analysis /
- nonnegative matrix factorization (NMF)

HTML全文

盲源分离(Blind source separation, BSS)是指在对混叠信道信息未知的情况下, 仅根据接收的混叠信号分离出源信号^[1-2]. 盲源分离起源于经典的“鸡尾酒会问题”^[3], 即在酒会派对上, 多人同时说话, 利用麦克风接收混叠的语音信号, 通过设计盲源分离方法可以把接收到的混叠信号独立地分离出来. 由于盲源分离方法只需要根据接收信号就可以分离出源信号, 因此, 具有独特的分离特性. 目前, 已经应用于多个领域, 例如: 音频信号处理^[4-5]、生物信号处理^[6-8]、图形信号处理^[9-10]、故障盲检测^[11-12]等领域. 在音频信号处理中, 由于接收的混叠语音信号伴随着回响以及噪声等一系列不确定因素, 给源信号的分离带来了很大的困难.

盲分离是信号处理领域中一种高效的信号分离方法, 传统的盲分离方法是基于线性的混叠模型而设计的^[13-15]. 然而, 线性混叠模型并不能很精确地模拟现实问题, 进而发展了卷积混叠模型, 由于卷积模型可以更好地描述实际问题, 所以目前在卷积混叠模型下研发盲源分离算法成为了主流. 主要分为三类: 超定卷积混叠、正定卷积混叠、欠定卷积混叠. 即, 当源信号数目小于传感器数目时是超定混叠; 当源信号数目等于传感器数目时是正定混叠; 当源信号数目大于传感器数目时是欠定混叠. 针对这三种混叠, 也有相应的论文. 例如, 基于奇异值分解的超定混叠盲源分离^[16], 考虑的是不含噪声的线性混叠模型, 利用互信息与微分熵的关系, 提出基于独立分量分析的代价函数, 推导了一般梯度学习算法. 基于时频掩蔽技术的正定混叠盲源分离算法^[17], 考虑的是不含噪声的卷积混叠模型, 其代价函数基于最大化对数似然估计. 基于超平面法矢量的欠定盲源分离算法^[18], 以及基于平行因子分解的欠定混叠盲源分离算法^[19]等. 然而, 在盲解卷问题中, 存在两个主要问题: 一是幅度歧义性问题; 二是排序歧义性问题. 幅度歧义性指的是在每个时频点上所估计的源信号的增益大小不确定; 排序歧义性指的是在每个时频点上所估计的源信号顺序发生混乱, 难于与源信号顺序保持一致. 针对幅度歧义性问题, 盲源分离的最小失真原理^[20]是比较成熟的方法, 而且幅度歧义性问题不如排序歧义性问题那么严重. 针对排序歧义性问题, 比较流行的解决方法是基于方向到达估计排序算法和频率间相关排序算法^[21-22]. 此外, 还有一种基于Tucker张量分解方法, 利用耦合频率消除卷积盲源分离中的排序歧义性^[23]. 但是, 到目前为止, 所提出的算法只是在一定程度上缓解了排序歧义性所带来的盲源分离性能问题, 仍然没有有效手段可以彻底解决排序歧义性问题.

如何设计更好的优化算法提高盲分离性能一直是盲源分离研究的关键. 时频域方法是比较流行的方法^[24-26], 它利用短时傅里叶变换把时域上的卷积混叠信号转换到频域上进行分离. 然后, 把分离后的源信号利用逆短时傅里叶变换转换到时域上, 从而实现分离. 常用的稀疏分析方法在盲源分离中发挥重要作用^[27-28], 利用信号在时频域上的稀疏性, 假设在每个时频点上有且只有一个源成分是活跃的, 设计相应的稀疏盲源分离算法重构源信号. 目前, $ L_{1/2} $范数正则化在稀疏性中扮演重要角色^[29-30], 它可以平衡$ L_{0} $范数与$ L_{1} $范数之间的稀疏性. 同时, 为了获得更加稀疏的表示, $ L_{p} $${(0\leq p < 1)}$范数正则化通过调整参数$p $值来近似真正的稀疏补偿项^[31-32], 从而提高源信号的分离性能. 然而, 参数$p $的值不是固定的, 需要根据具体数据集进行适当的调参来获得最优解.

非负矩阵分解(Nonnegative matrix factorization, NMF)是当前流行的一种分离方法^[33-35], 文献[36]将独立向量分析与非负矩阵分解相结合, 设计了一种正定卷积混叠盲分离算法. 文献[37-38]将期望最大化与非负矩阵分解相结合, 设计了欠定卷积混叠信号的盲分离. 文献[39]设计了一种快速多通道非负矩阵分解盲分离方法. 上述方法主要是基于低秩空间协方差模型设计的. 而基于满秩空间协方差模型的方法在解决盲分离问题中也发挥了重要作用^[40-41]. 另外, 张量分解理论^[42]作为非负矩阵分解的拓展, 已应用于盲分离问题中^[43-44]. 然而, 该类方法由于计算复杂度较高, 导致计算速度较慢.

为了突破传统盲分离算法的局限性, 本文设计一种新的面向卷积混叠环境下的盲源分离算法. 通过设计带权重的非负矩阵分解模型, 基于Itakura-Saito散度, 结合了独立分量分析和非负矩阵分解, 构建新的代价函数. 通过严格的数学理论推导和优化求解, 获得新的模型参数更新规则, 在每次迭代更新过程中对解混叠矩阵进行标准化处理, 可以避免幅度歧义性问题; 在源信号的重构阶段, 通过实时更新非负矩阵分解模型参数, 并将信号源的空间特性在所有频点上联合优化, 从而在每个时频点上更好地重构源信号, 避免了排序歧义性问题. 同时, 假设源信号在每个时频点上满足独立复高斯分布, 在独立分量分析框架下, 源信号的协方差矩阵为对角化矩阵, 对其建立带权重的非负矩阵分解新模型, 利用梯度下降法得到非负矩阵分解模型参数更新规则, 降低了计算复杂度, 提高了算法的计算速度.

本文的创新点概括如下:

1) 设计一个新的优化目标函数, 推导出新的模型参数更新规则, 并给出严格的数学理论证明, 进而提出一种高效的卷积盲源分离算法.

2) 在独立分量分析框架下, 建立非负矩阵分解新模型, 对解混叠矩阵进行实时更新学习, 避免了排序歧义性问题, 提高了盲源分离性能, 同时降低了计算复杂度.

本文实验数据来自于公开的音频信号公共数据集, 实验测试了中文语音混叠信号、英文语音混叠信号、以及音乐混叠信号在不同混响下的盲源分离性能, 通过对比几种目前比较流行的盲源分离算法, 验证了本文所提算法的有效性以及优越性.

本文的结构安排如下: 第1节主要介绍卷积混叠系统模型; 第2节是本文的核心部分, 详细介绍了所提算法的具体细节, 并给出严格的数学理论推导, 设计了新的盲源分离算法; 第3节给出详细的仿真实验以及对实验结果进行分析; 第4节对本文做总结, 并对未来工作进行展望.

1. 卷积混叠系统模型

考虑多通道时域卷积混叠信号模型

$$ \begin{split} {\boldsymbol{x}}(t) =\;& A\ast {\boldsymbol{s}}(t)+ {\boldsymbol{v}}(t)= \\ \;& \sum\limits_{\tau = 0}^{L-1}A(\tau){\boldsymbol{s}}(t-\tau)+ {\boldsymbol{v}}(t) \end{split} $$

(1)

其中, $ \ast $代表卷积, 时间变量$ t = 1,\cdots,T $是连续的, $ {\boldsymbol{x}}(t) = [x_{1}(t),\cdots,x_{p}(t)]^{\rm{T}} $是用$ p $个传感器在时刻$ t $记录的混叠信号, $ {\boldsymbol{s}}(t) = [s_{1}(t),\cdots,s_{Q}(t)]^{\rm{T}} $是$ Q $个源信号, $ A(\tau) $是在时间延迟$ \tau $下的混叠系统, $ L $是空间脉冲响应长度, $ {\boldsymbol{v}}(t) $是均值为零、方差为$ \sigma^{2} $的高斯白噪声. 卷积混叠信号盲源分离是指仅根据接收到的混叠信号$ {\boldsymbol{x}}(t) $, 分离得到源信号$ {\boldsymbol{s}}(t) $.

为了解决上述卷积混叠信号盲源分离问题, 使用短时傅里叶变换将时域卷积混叠信号模型 (1) 转换到频域, 得

$$ {\boldsymbol{x}}_{fn} = A_{f}{\boldsymbol{s}}_{fn}+{\boldsymbol{v}}_{fn} $$

(2)

其中, $ f = 1,\cdots,F $是频点指数, $ n = 1,\; \cdots,N $是时间窗指数, $ {\boldsymbol{x}}_{fn} = [x_{1,fn},\cdots,x_{p,fn}]^{\rm{T}} $和${\boldsymbol{s}}_{fn} = [s_{1,fn}, \cdots, s_{Q,fn}]^{\rm{T}}$分别是混叠信号$ {\boldsymbol{x}}(t) $和源信号$ {\boldsymbol{s}}(t) $的短时傅里叶变换, $ A_{f} $是混叠矩阵, $ {\boldsymbol{v}}_{fn} $是包括高斯白噪声在内的模型近似误差.

假设空间脉冲响应长度远远小于短时傅里叶变换窗函数长度, 则式 (2) 的线性近似模型是成立的. 同时, 假设在每个时频点上的源是相互独立的, 满足复高斯分布, 噪声是平稳的、且与源信号相互独立.

本文的目标: 在时频域上, 设计卷积盲源分离算法, 仅根据在时域上接收到的混叠信号$ {\boldsymbol{x}}(t) $, 利用短时傅里叶变换得到$ {\boldsymbol{x}}_{fn} $, 在频域上分离得到源信号$ {\boldsymbol{s}}_{fn} $. 然后, 利用短时傅里叶逆变换获取时域源信号$ {\boldsymbol{s}}(t) $, 从而实现源信号的盲分离.

2. 卷积混叠信号盲源分离算法

假设传感器的数目等于源信号数目, 即$ P = Q $, 混叠矩阵$ A_{f} $是可逆的, 定义解混叠矩阵$ W_{f} = A_{f}^{-1} $, 则分离的源信号可表示为

$$ {\boldsymbol{s}}_{fn}\approx {\boldsymbol{y}}_{fn} = W_{f}{\boldsymbol{x}}_{fn} $$

(3)

即

$$ {\boldsymbol{x}}_{fn} = W_{f}^{-1}{\boldsymbol{y}}_{fn} $$

(4)

计算下式

$$ \begin{split} X_{fn} =\;& {\boldsymbol{x}}_{fn}{\boldsymbol{x}}_{fn}^{\rm{T}} = \\ & (A_{f}{\boldsymbol{s}}_{fn}+{\boldsymbol{v}}_{fn})(A_{f}{\boldsymbol{s}}_{fn}+{\boldsymbol{v}}_{fn})^{\rm{T}} = \\ & A_{f}{\boldsymbol{s}}_{fn}{\boldsymbol{s}}_{fn}^{\rm{T}}A_{f}^{\rm{T}}+A_{f}{\boldsymbol{s}}_{fn}{\boldsymbol{v}}_{fn}^{\rm{T}}\;+ \\ & {\boldsymbol{v}}_{fn}{\boldsymbol{s}}_{fn}^{\rm{T}}A_{f}^{\rm{T}}+{\boldsymbol{v}}_{fn}{\boldsymbol{v}}_{fn}^{\rm{T}} \end{split} $$

(5)

其中, $ (\cdot)^{\rm{T}} $是Hermitian转置, 假设在每个时频点上的源成分与噪声是相互独立的, 则式 (5) 可以近似为

$$ X_{fn} = \hat{X}_{fn} = A_{f}{\boldsymbol{s}}_{fn}{\boldsymbol{s}}_{fn}^{\rm{T}}A_{f}^{\rm{T}} = A_{f}D_{fn}^{\rm{T}}A_{f}^{\rm{T}} $$

(6)

其中, $ X_{fn} $是Hermitian正定矩阵, 它表示在时频点$ (f,n) $处观测信号的瞬时协方差, $ X $是一个四阶张量, 假设源信号在每个时频点上满足独立复高斯分布, 在独立分量分析框架下, 源信号的协方差矩阵$ D_{fn} = {\boldsymbol{s}}_{fn}{\boldsymbol{s}}_{fn}^{\rm{T}} $是Hermitian正定的对角化矩阵, 可表示为

$$ D_{fn} = \left[\begin{array}{cccc} d_{fn,1} & 0 & \cdots & 0 \\ 0 & d_{fn,2} & \ddots & \vdots \\ \vdots & \ddots & \ddots & 0 \\ 0 & \cdots & 0 & d_{fn,Q} \end{array}\right] $$

(7)

针对$ D_{fn} $中的对角线的非负元素, 对其建立带权重的非负矩阵分解新模型, 可得

$$ d_{fn,q} = \sum\limits_{k}z_{qk}t_{fk}v_{kn} $$

(8)

其中, $ z_{qk}\in \{0,1\} $是一个潜在变量, 它表示第$ k $个基是否属于第$ q $个源, 如果属于, 则$ z_{qk} = 1 $, 否则$ z_{qk} = 0 $; $ t_{fk} $和$ v_{kn} $分别是基矩阵$ T\in {\bf{R}}_{\geq 0}^{F\times K} $和激活矩阵$ V\in {\bf{R}}_{\geq 0}^{K\times N} $的非负元素, $ k = 1,\cdots,\; K $是指数, $ K $被设置为比$ N $和$ F $小很多的值, 即$FK+KN\ll FN$, 它的估计可利用自动相关性判定方法获得^[45]. 因此, 这是一个低秩近似.

根据$ X_{fn} $和$ \hat{X}_{fn} $的Itakura-Saito散度

$$ d_{IS}(X_{fn}|\hat{X}_{fn}) = \frac{X_{fn}}{\hat{X}_{fn}}-\ln\frac{X_{fn}}{\hat{X}_{fn}}-1 $$

(9)

把式 (5) 和式 (6) 代入式 (9) 中, 得

$$ \begin{split} d_{IS}(X_{fn}|\hat{X}_{fn})=\;& \frac{{\boldsymbol{x}}_{fn}{\boldsymbol{x}}_{fn}^{\rm{T}}}{A_{f}D_{fn}^{\rm{T}}A_{f}^{\rm{T}}}-\ln\frac{{\boldsymbol{x}}_{fn}{\boldsymbol{x}}_{fn}^{\rm{T}}}{A_{f}D_{fn}^{\rm{T}}A_{f}^{\rm{T}}}-1 = \\ & \frac{{\boldsymbol{x}}_{fn}{\boldsymbol{x}}_{fn}^{\rm{T}}}{A_{f}D_{fn}^{\rm{T}}A_{f}^{\rm{T}}}+\ln(\det(A_{f}D_{fn}^{\rm{T}}A_{f}^{\rm{T}}))\;- \\ & \ln({\boldsymbol{x}}_{fn}{\boldsymbol{x}}_{fn}^{\rm{T}})-1\\[-10pt] \end{split} $$

(10)

定义代价函数

$$ \begin{split}{{F}} =\;& \sum\limits_{f,n}\Bigg( {\rm{tr}}\left(\frac{{\boldsymbol{x}}_{fn}{\boldsymbol{x}}_{fn}^{\rm{T}}}{A_{f}D_{fn}^{\rm{T}}A_{f}^{\rm{T}}}\right)+\\ &\ln(\det(A_{f}D_{fn}^{\rm{T}}A_{f}^{\rm{T}}))\Bigg)+\; {\rm{const}} \end{split}$$

(11)

其中, $ {\rm{tr}} $代表矩阵的迹, $ \det $代表行列式, $ {\rm{const}} $是常数项. 通过最小化式 (9), 假设源信号在每个时频点上满足独立复高斯分布, 对相互独立的源进行建模. 把式 (4) 和$ W_{f} = A_{f}^{-1} $代入式 (11) 中, 得

$$ \begin{split} {{F}} =\;& \sum\limits_{f,n}\Bigg( {\rm{tr}} \left( \frac{W_{f}^{-1}{\boldsymbol{y}}_{fn}{\boldsymbol{y}}_{fn}^{\rm{T}}(W_{f}^{\rm{T}})^{-1}}{W_{f}^{-1}D_{fn}(W_{f}^{\rm{T}})^{-1}} \right) + \ln|\det W_{f}^{-1}|\; +\\ & \ln(\det D_{fn})+\ln|\det(W_{f}^{\rm{T}})^{-1}|\Bigg)+ {\rm{const}} = \\ & \sum\limits_{f,n}\Bigg( {\rm{tr}}\left(\frac{{\boldsymbol{y}}_{fn}{\boldsymbol{y}}_{fn}^{\rm{T}}}{D_{fn}}\right)+ 2\ln|\det W_{f}^{-1}|\;+\\ & \ln(\det D_{fn})\Bigg)+ {\rm{const}} = \\ & \sum\limits_{f,n}\Bigg(\sum\limits_{q}\frac{|y_{fn,q}|^{2}}{d_{fn,q}}-2\ln|\det W_{f}|\;+\\ & \sum\limits_{q}\ln d_{fn,q}\Bigg)+ {\rm{const}}\\[-15pt] \end{split} $$

(12)

把式 (8) 代入式 (12) 中, 得

$$ \begin{split} {{F}}=\; & \sum\limits_{f,n}\Bigg(\sum\limits_{q}\frac{|y_{fn,q}|^{2}}{\sum\limits_{k}z_{qk}t_{fk}v_{kn}}-2\ln|\det W_{f}|\;+\\ & \sum\limits_{q}\left(\ln \sum\limits_{k}z_{qk}t_{fk}v_{kn}\right)\Bigg)+ {\rm{const}} \end{split} $$

(13)

通过最小化代价函数 (13) 可以推导得到$ z_{qk} $, $ t_{fk} $和$ v_{kn} $的更新规则. 然而, 式 (13) 中的第一项是个凸函数, 第二项是个凹函数, 整体是一个非凸的优化问题, 求解相对困难.

因此, 针对式 (13) 中的第一项凸函数, 利用詹森 (Jensen) 不等式, 得

$$ \frac{1}{\sum\limits_{k}z_{qk}t_{fk}v_{kn}}\leq \sum\limits_{k}\frac{\alpha_{fn,k}^{2}}{z_{qk}t_{fk}v_{kn}} $$

(14)

其中, 辅助变量$ \alpha_{fn,k}\geq 0 $且满足$ \sum\nolimits_{k}\alpha_{fn,k} = 1 $. 当且仅当$ \alpha_{fn,k} = (z_{qk}t_{fk}v_{kn})/(\sum\nolimits_{k'}z_{qk'}t_{fk'}v_{k'n}) $时, 等号成立.

针对式 (13) 中的第二项凹函数, 利用切线不等式, 得

$$ \ln\frac{\sum\limits_{k}z_{qk}t_{fk}v_{kn}}{\beta_{fn}}\leq \frac{\sum\limits_{k}z_{qk}t_{fk}v_{kn}}{\beta_{fn}}-1 $$

(15)

变形为

$$ \ln\left(\sum\limits_{k}z_{qk}t_{fk}v_{kn}\right)-\ln\beta_{fn}\leq \frac{1}{\beta_{fn}}\sum\limits_{k}z_{qk}t_{fk}v_{kn}-1 $$

(16)

即

$$ \ln\left(\sum\limits_{k}z_{qk}t_{fk}v_{kn}\right)\leq \frac{1}{\beta_{fn}}\sum\limits_{k}z_{qk}t_{fk}v_{kn}+\; \ln\beta_{fn}-1 $$

(17)

其中, 辅助变量$\beta_{fn}\;\;\geq\;\; 0$, 当且仅当 $\beta_{fn} = \sum\nolimits_{k'}z_{qk'}t_{fk'}v_{k'n}$时, 等号成立.

然后, 定义代价函数 (13) 的辅助函数

$$ \begin{split} {{F}} \leq\;& {{F}}^+ = \sum\limits_{f,n}\Bigg(\sum\limits_{q,k}\frac{|y_{fn,q}|^{2}\alpha_{fn,k}^{2}}{\sum\limits_{k}z_{qk}t_{fk}v_{kn}}-2\ln|\det W_{f}|\;+\\ & \sum\limits_{q}\left(\frac{1}{\beta_{fn}}\sum\limits_{k}z_{qk}t_{fk}v_{kn}+\ln\beta_{fn}-1\right)\Bigg)+ {\rm{const}} \end{split} $$

(18)

因此, 非凸的优化问题转化为凸优化问题, 通过最小化式 (18), 利用梯度下降法可得到$ z_{qk} $, $ t_{fk} $和$ v_{kn} $的更新规则.

首先, 令

$$ \frac{\partial {{F}}^+}{\partial z_{qk}} = \sum\limits_{f,n}\left(-\frac{|y_{fn,q}|^{2}\alpha_{fn,k}^{2}}{z_{qk}^{2}t_{fk}v_{kn}}+\frac{t_{fk}v_{kn}}{\beta_{fn}}\right) = 0 $$

(19)

即

$$ \sum\limits_{f,n}\frac{t_{fk}v_{kn}}{\beta_{fn}} = \frac{1}{z_{qk}^{2}}\sum\limits_{f,n}\frac{|y_{fn,q}|^{2}\alpha_{fn,k}^{2}}{t_{fk}v_{kn}} $$

(20)

变形得

$$ z_{qk} = \sqrt{\frac{\sum\limits_{f,n}\frac{|y_{fn,q}|^{2}\alpha_{fn,k}^{2}}{t_{fk}v_{kn}}}{\sum\limits_{f,n}\frac{t_{fk}v_{kn}}{\beta_{fn}}}} $$

(21)

把$\alpha_{fn,k}\; =\; (z_{qk}t_{fk}v_{kn})/(\sum\nolimits_{k'}z_{qk'}t_{fk'}v_{k'n})$, $ \beta_{fn} = \sum\nolimits_{k'}z_{qk'}t_{fk'}v_{k'n} $代入式 (21), 得$ z_{qk} $的更新规则如下

$$ z_{qk}\leftarrow z_{qk}\sqrt{\frac{\sum\limits_{f,n}\frac{|y_{fn,q}|^{2}t_{fk}v_{kn}}{(\sum\limits_{k'}z_{qk'}t_{fk'}v_{k'n})^{2}}}{\sum\limits_{f,n}\frac{t_{fk}v_{kn}}{\sum\limits_{k'}z_{qk'}t_{fk'}v_{k'n}}}} $$

(22)

其中, 计算$ z_{qk}\leftarrow z_{qk}/\sum\nolimits_{q'}z_{q'k} $, 使得$ \sum\nolimits_{q}z_{qk} = 1 $.

同理, 令

$$ \frac{\partial {{F}}^+}{\partial t_{fk}} = \sum\limits_{n,q}\left(-\frac{|y_{fn,q}|^{2}\alpha_{fn,k}^{2}}{z_{qk}t_{fk}^{2}v_{kn}}+\frac{z_{qk}v_{kn}}{\beta_{fn}}\right) = 0 $$

(23)

$$ \frac{\partial {{F}}^+}{\partial v_{kn}} = \sum\limits_{f,q}\left(-\frac{|y_{fn,q}|^{2}\alpha_{fn,k}^{2}}{z_{qk}t_{fk}v_{kn}^{2}}+\frac{z_{qk}t_{fk}}{\beta_{fn}}\right) = 0 $$

(24)

即

$$ \sum\limits_{n,q}\left(\frac{z_{qk}v_{kn}}{\beta_{fn}}\right) = \frac{1}{t_{fk}^{2}}\sum\limits_{n,q}\left(\frac{|y_{fn,q}|^{2}\alpha_{fn,k}^{2}}{z_{qk}v_{kn}}\right) $$

(25)

$$ \sum\limits_{f,q}\left(\frac{z_{qk}t_{fk}}{\beta_{fn}}\right) = \frac{1}{v_{kn}^{2}}\sum\limits_{f,q}\left(\frac{|y_{fn,q}|^{2}\alpha_{fn,k}^{2}}{z_{qk}t_{fk}}\right) $$

(26)

变形得

$$ t_{fk} = \sqrt{\frac{\sum\limits_{n,q}\left(\frac{|y_{fn,q}|^{2}\alpha_{fn,k}^{2}}{z_{qk}v_{kn}}\right)}{\sum\limits_{n,q}\left(\frac{z_{qk}v_{kn}}{\beta_{fn}}\right)}} $$

(27)

$$ v_{kn} = \sqrt{\frac{\sum\limits_{f,q}\left(\frac{|y_{fn,q}|^{2}\alpha_{fn,k}^{2}}{z_{qk}t_{fk}}\right)}{\sum\limits_{f,q}\left(\frac{z_{qk}t_{fk}}{\beta_{fn}}\right)}} $$

(28)

把$\alpha_{fn,k} \;=\; (z_{qk}t_{fk}v_{kn})/(\sum\nolimits_{k'}z_{qk'}t_{fk'}v_{k'n})$, $ \beta_{fn} = \sum\nolimits_{k'}z_{qk'}t_{fk'}v_{k'n} $代入式 (27) 和式 (28), 得$ t_{fk} $和$ v_{kn} $的更新规则分别如下

$$ t_{fk}\leftarrow t_{fk}\sqrt{\frac{\sum\limits_{n,q}\left(\frac{|y_{fn,q}|^{2}z_{qk}v_{kn}}{(\sum\limits_{k'}z_{qk'}t_{fk'}v_{k'n})^{2}}\right)}{\sum\limits_{n,q}\left(\frac{z_{qk}v_{kn}}{\sum\limits_{k'}z_{qk'}t_{fk'}v_{k'n}}\right)}} $$

(29)

$$ v_{kn}\leftarrow v_{kn}\sqrt{\frac{\sum\limits_{f,q}\left(\frac{|y_{fn,q}|^{2}z_{qk}t_{fk}}{(\sum\limits_{k'}z_{qk'}t_{fk'}v_{k'n})^{2}}\right)}{\sum\limits_{f,q}\left(\frac{z_{qk}t_{fk}}{\sum\limits_{k'}z_{qk'}t_{fk'}v_{k'n}}\right)}} $$

(30)

然后, 为了得到$ W_{f} $的更新规则, 把 $ y_{fn,q} = w_{f,q}x_{fn,q} $代入式 (18) 中, 得

$$ {{F}}^+ = \sum\limits_{f}\left(\sum\limits_{q}w_{f,q}^{\rm{T}}V_{f,q}w_{f,q}-2\ln|\det W_{f}|\right)+\; {\rm{const}} $$

(31)

其中,

$$ V_{f,q} = \frac{1}{N}\sum\limits_{n}\frac{{\boldsymbol{x}}_{fn}{\boldsymbol{x}}_{fn}^{\rm{T}}\alpha_{fn,k}^{2}}{\sum\limits_{k}z_{qk}t_{fk}v_{kn}} $$

(32)

${\rm{const}}$是与$ W_{f} $相互独立的项. 对于式 (31), 令

$$ \frac{\partial {{F}}^+}{\partial w_{f,q}^{\rm{T}}} = V_{f,q}w_{f,q}-2\frac{\partial}{\partial w_{f,q}^{\rm{T}}}\ln|\det W_{f}| = 0 $$

(33)

利用矩阵对数的微分矩阵公式得

$$ \frac{\partial}{\partial W_{f}}\ln|\det W_{f}| = W_{f}^{-1} $$

(34)

因此, 式 (33) 可以用向量形式表示为

$$ w_{f,l}^{\rm{T}}V_{f,q}w_{f,q} = \delta_{lq} $$

(35)

其中,

$$ \delta_{lq} = \bigg\{\begin{array}{cc} 1, & l = q \\ 0, & l\neq q \end{array} $$

(36)

即

$$ w_{f,q}^{\rm{T}}V_{f,q}w_{f,q} = 1 $$

(37)

$$ w_{f,l}^{\rm{T}}V_{f,q}w_{f,q} = 0\; \; (l\neq q) $$

(38)

等价于

$$ \left[\begin{array}{c} w_{f,1}^{\rm{T}} \\ \vdots \\ w_{f,q-1}^{\rm{T}} \\ w_{f,q}^{\rm{T}} \\ w_{f,q+1}^{\rm{T}} \\ \vdots \\ w_{f,Q}^{\rm{T}} \end{array}\right]V_{f,q}w_{f,q} = \left[\begin{array}{c} 0 \\ \vdots \\ 0 \\ 1 \\ 0 \\ \vdots \\ 0 \end{array}\right] $$

(39)

可写作

$$ W_{f}V_{f,q}w_{f,q} = {\bf{1}}_{q} $$

(40)

其中, ${\bf{1}}_{q}$为第 $ q $个元素是1的单位列向量. 可得$ w_{f,q} $为

$$ w_{f,q} = (W_{f}V_{f,q})^{-1}{\bf{1}}_{q} $$

(41)

为了满足式 (37), 可得$ w_{f,q} $的更新规则如下

$$ w_{f,q}\leftarrow \frac{w_{f,q}}{\sqrt{w_{f,q}^{\rm{T}}V_{f,q}w_{f,q}}} $$

(42)

另外, 为了避免估计的源信号出现幅度歧义性问题, 可以在每次迭代过程中标准化$ w_{f,q} $, 即

$$ w_{f,q}\leftarrow \frac{w_{f,q}}{\sqrt{\frac{1}{FN}\sum\limits_{f,n}|y_{fn,q}|}} $$

(43)

$$ y_{fn,q}\leftarrow \frac{y_{fn,q}}{\sqrt{\frac{1}{FN}\sum\limits_{f,n}|y_{fn,q}|}} $$

(44)

同时, 用单位矩阵作为$ W_{f} $的初始化. 从而得到频域上分离的源信号为

$$ \hat{{\boldsymbol{s}}}_{fn}\approx {\boldsymbol{y}}_{fn} = W_{f}{\boldsymbol{x}}_{fn} $$

(45)

最后, 利用短时傅里叶变换的逆变换得到时域上的源信号$ {\boldsymbol{s}}(t) $. 算法1概述了本文所提的卷积混叠信号盲源分离算法流程.

算法 1. 卷积混叠信号盲源分离算法

输入. 卷积混叠信号${\boldsymbol{x}}(t)$.

输出. 分离的源信号$\hat{\boldsymbol{s}}(t)$.

1) 对混叠信号${\boldsymbol{x}}(t)$进行短时傅里叶变换, 得到频域上的混叠信号${\boldsymbol{x}}_{fn}$;

2) 定义代价函数(11)和辅助函数(18);

3) 随机初始化模型参数$z_{qk}$, $t_{fk}$, $v_{kn}$, $W_{f}={{\bf{1}}}$, 利用以下更新准则更新模型参数:

　　a) 利用式(22)更新$z_{qk}$;

　　b) 利用式(29)更新$t_{fk}$;

　　c) 利用式(30)更新$v_{kn}$;

　　d) 利用式(42)更新$w_{f,q}$;

　　e) 利用式(44)更新$y_{fn,q}$;

　　f) 重复步骤 a) ~ e), 直至收敛为止.

4)利用式(45)分离得到频域上的源信号$\hat{\boldsymbol{s}}_{fn}$;

5)利用逆傅里叶变换, 把频域上的源信号$\hat{\boldsymbol{s}}_{fn}$转换到时域上, 得到$\hat{\boldsymbol{s}}(t)$.

3. 仿真实验与结果分析

为了验证所提算法的有效性, 分别测试中文语音混叠信号、英文语音混叠信号、音乐混叠信号. 为了很好地模拟现实的混响环境, 创建一个可人工控制的空间脉冲响应的房间, 混响时间$ RT_{60} $定义为反射声线强度比直达声线强度低60分贝所需的时间^[46]

$$ RT_{60} = \frac{24\ln(10)V}{c\sum\limits_{i = 1}^{6}S_{i}(1-\beta_{i}^{2})} $$

(46)

其中, $ V $表示模拟房间的体积, $ c $是声音的速度 (340 m/s), $ \beta_{i} $和$ S_{i} $分别表示第$ i $面墙反射系数和表面积. 通过任意改变$ RT_{60} $值可以控制不同的混响环境来更好地模拟现实环境, 其值越大, 说明环境越复杂, 源信号的分离就越困难.

同时, 为了评价各类算法的盲源分离性能, 选择SDR (Source-to-distortion ratio) 和SIR (Source-to-interference ratio) 作为源信号分离性能评价准则^[47], 它们是一种已经公开建立的源信号分离质量比较评价技术, 可以很好地衡量每个算法分离源信号的能力. 其值越大, 说明分离性能越好.

另外, 为了说明所提算法的优越性, 对比几种目前比较流行的盲源分离算法: 满秩算法 (Full-Rank)^[40], 体积最小化交替优化算法 (Volume minimization alternating optimization, VolMin-AO)^[48], 低秩非负矩阵分解算法 (Rank1-NMF)^[36], 以及校正块Tucker-2分解算法 (Rectified block Tucker-2 decomposition, RBTD)^[23]. 其中, Full-Rank算法是通过构建空间协方差模型, 设计模型参数估计算法. VolMin-AO算法是在协方差域利用凸几何数学理论设计一种体积最小化交替优化算法. Rank1-NMF算法是结合独立向量分析和非负矩阵分解理论设计的一种正定混叠信号盲源分离算法. RBTD算法是通过构建一个张量框架消除排序歧义性问题, 进而设计一种卷积混叠信号盲源分离算法. 这几种流行的盲源分离算法是从不同的角度考虑问题, 在音频信号处理中发挥各自的优势. 通过与这些算法进行对比, 可以很好地反映所提算法的先进性和优越性.

3.1 实验一. 中文语音混叠信号盲源分离

首先, 测试中文语音信号混叠情况下的盲源分离, 数据集来自国内公共数据集^[49], 选择其中两组中文语音信号进行卷积混叠, 具体信息如表1所示, 混响时间设置为100 ms ~ 350 ms, 实验结果如图1、图2所示, 这与我们初期预想是相符合的, 随着混响时间$ RT_{60} $的增长, SDR和SIR的值呈现逐渐减小的趋势. 显然, 混响时间变长给分离性能带来了很大的影响, 特别是在较高混响下, 分离性能急剧下降. 但是, 相比于其他算法, 所提算法还是具有更好的分离效果.

表 1 两组中文语音源信号

Table 1 Two groups of Chinese speech sources

中文数据	源信号	时长
语音 1	IC0936W0131	5 s
语音 2	IC0936W0134	5 s

下载: 导出CSV

| 显示表格

图 1 中文语音混叠信号盲源分离SDR性能对比

Fig. 1 SDR performance comparison for BSS of Chinese speech mixtures

下载: 全尺寸图片幻灯片

图 2 中文语音混叠信号盲源分离SIR性能对比

Fig. 2 SIR performance comparison for BSS of Chinese speech mixtures

下载: 全尺寸图片幻灯片

3.2 实验二. 英文语音混叠信号盲源分离

其次, 测试英文语音信号混叠情况下的盲源分离性能, 数据集来自于国外公共数据集^[50], 选择其中两组英文语音信号进行卷积混叠, 如表2所示, 混响时间设置为100 ms ~ 350 ms, 实验结果如图3、图4所示, 同样, 随着混响时间的增大, 盲分离性能降低, 当混响时间达到200 ms时, 算法的分离性能已经明显地下降, 对比于其他算法, 本文所提算法的盲源分离性能一直具有一定的优越性.

表 2 两组英文语音源信号

Table 2 Two groups of English speech sources

英文数据	源信号	时长
语音 1	dev1_female3_src_1	10 s
语音 2	dev1_female3_src_2	10 s

下载: 导出CSV

| 显示表格

图 3 英文语音混叠信号盲源分离SDR性能对比

Fig. 3 SDR performance comparison for BSS of English speech mixtures

下载: 全尺寸图片幻灯片

图 4 英文语音混叠信号盲源分离SIR性能对比

Fig. 4 SIR performance comparison for BSS of English speech mixtures

下载: 全尺寸图片幻灯片

然而, 在高混响环境下, 算法的分离性能明显下降, 说明在分离英文语音卷积混叠信号时, 在低混响下效果显著, 对高混响环境比较敏感. 主要是因为混响时间的增长带来强烈的回声, 因此, 算法对高混响的鲁棒性有待进一步改进.

3.3 实验三. 音乐混叠信号盲源分离

为了验证所提算法在音乐混叠信号中的应用, 测试音乐信号混叠情况下的盲源分离, 数据集同样来自于国外公共数据集^[50], 选择其中两组音乐信号进行卷积混叠, 如表3所示, 混响时间设置为100 ms ~ 350 ms, 实验结果如图5、图6所示, 可见所提算法的分离性能明显优于其他算法. 同时, 对比于实验二中的英文语音混叠信号盲源分离情况, 该算法对音乐混叠信号的盲源分离性能相对较好, 特别是在混响时间超过200 ms时, 盲源分离性能依然较好, 说明此算法在分离音乐混叠信号时比分离英文语音混叠信号具有更好的效果.

表 3 两组音乐源信号

Table 3 Two groups of music sources

音乐数据	源信号	时长
音乐 1	dev1_wdrums_src_1	11 s
音乐 2	dev1_wdrums_src_3	11 s

下载: 导出CSV

| 显示表格

图 5 音乐混叠信号盲源分离SDR性能对比

Fig. 5 SDR performance comparison for BSS of music mixtures

下载: 全尺寸图片幻灯片

图 6 音乐混叠信号盲源分离SIR性能对比

Fig. 6 SIR performance comparison for BSS of music mixtures

下载: 全尺寸图片幻灯片

3.4 实验四. 噪声对算法盲分离性能的影响

以上实验都是在无噪声的环境下做的测试, 为了测试高斯白噪声对算法盲分离性能的影响, 对实验一中的中文语音卷积混叠信号添加一组高斯白噪声, 选择信噪比 (Source-to-noise ratio, SNR) 在10 dB ~ 35 dB之间进行测试. 因为算法在低混响下效果最好, 所以选择混响时间为$ RT_{60} = 100\;{\rm{ms}} $, 实验结果如图7、图8所示, 对于有噪声的语音混叠信号, 所提算法的盲分离性能仍然明显超过其他的对比算法, 说明所提算法对于有噪声的语音混叠信号的盲分离有较好的鲁棒性.

图 7 噪声对语音信号盲分离SDR性能的影响

Fig. 7 Effect of noise on SDR performance for BSS of Chinese speech mixtures

下载: 全尺寸图片幻灯片

图 8 噪声对语音信号盲分离SIR性能的影响

Fig. 8 Effect of noise on SIR performance for BSS of Chinese speech mixtures

下载: 全尺寸图片幻灯片

同时, 为了验证噪声对音乐信号盲分离性能的影响, 对实验三中的音乐卷积混叠信号添加一组高斯白噪声, SNR设置为10 dB ~ 35 dB, 混响时间为$ RT_{60} = 100\;{\rm{ms}} $, 实验结果如图9、图10所示, 对于有噪声的音乐混叠信号的盲分离, 所提算法仍然具有更好的分离性能, 说明所提算法对有噪声的音乐混叠信号盲分离也有较好的鲁棒性.

图 9 噪声对音乐信号盲分离SDR性能的影响

Fig. 9 Effect of noise on SDR performance for BSS of music mixtures

下载: 全尺寸图片幻灯片

图 10 噪声对音乐信号盲分离SIR性能的影响

Fig. 10 Effect of noise on SIR performance for BSS of music mixtures

下载: 全尺寸图片幻灯片

3.5 实验结果分析

通过以上实验结果发现, 所提算法在分离卷积混叠语音信号时具有很好的效果, 在处理音乐信号时具有更好的分离性能, 主要是因为非负矩阵分解模型更适合于音乐混叠信号. 特别是在低混响环境下, 算法的盲分离性能明显优于其他对比算法; 同时在低噪声环境下, 所提算法具有较好的鲁棒性. 所提算法的计算复杂度主要集中于矩阵乘积, 本文假设源信号在每个时频点上满足独立复高斯分布, 在独立分量分析框架下, 源信号的协方差矩阵是Hermitian正定的对角化矩阵, 可表示为式 (7), 计算过程中非对角元素全为零, 计算复杂度主要来源于主对角元素的乘积, 由源信号数目决定, 这样减少了矩阵乘积带来的计算复杂度. 另外, 设计的优化目标函数 (11) 是基于Itakura-Saito散度, 通过最小化$ X_{fn} $与$ \hat{X}_{fn} $的Itakura-Saito散度, 利用源信号在每个时频点上满足独立复高斯分布, 对相互独立的源进行建模. 模型参数更新方式的推导过程是利用梯度下降法进行的, 这样可以提高计算速度.

然而, 在高混响下, 盲源分离性能受到很大影响; 在高噪声环境下, 源信号淹没于噪声中, 分离将更加困难. 本文考虑音乐混叠信号的盲源分离, 选择混响时间为$ RT_{60} = 400\;{\rm{ms}} $的高混响环境, 以及信噪比SNR为5 dB的高噪声环境, 其分离结果对比如表4所示, 可见在高混响、高噪声环境中, 所提算法的优势不太明显. 所以, 所提算法的优势是分离低混响、低噪声的特定环境下的卷积混叠信号, 盲源分离性能比目前比较流行的算法具有更好的效果. 针对高混响、高噪声的卷积混叠信号盲源分离问题, 由于混叠环境的复杂性和不确定性, 导致所提算法的分离性能下降, 这是该算法的局限性, 需要进一步优化.

表 4 高混响、高噪声环境中的实验结果

Table 4 Experimental results in high reverberation and high noise environment

	$RT_{60}=400$ ms		SNR = 5 dB
	SDR	SIR	SDR	SIR
Full-Rank	0.1969	4.5580	−4.2087	6.7379
VolMin-AO	1.1786	4.3729	−3.8684	6.6486
Rank1-NMF	−1.8239	0.7933	−9.8632	2.7641
RBTD	−6.7646	1.2411	−9.1111	1.8784
Proposed	1.0278	5.7190	−1.8554	4.6515

下载: 导出CSV

| 显示表格

另外, 本文提出的卷积混叠盲源分离算法不仅适用于线性混叠模型, 还适用于卷积混叠模型. 从理论上说, 本文假设混叠矩阵是可逆的, 在超定情况下仍然满足, 只需要利用主成分分析技术降维即可, 所以本文所提算法也适用于超定情况. 在实际应用中, 当传感器的数目大于或等于源信号的数目时, 该算法仍有一定的实用性. 例如, 在语音信号采集过程中使用的是全方位麦克风传感器进行收集. 当然, 当传感器的数目小于源信号的数目时, 即在欠定混叠下, 该算法受到限制. 针对欠定卷积混叠下的研究也是当下盲分离研究的难点, 作者也在积极开展这方面的研究.

4. 结论

本文主要针对卷积混叠音频信号盲源分离问题, 提出一种高效的盲源分离新算法. 通过实时更新解混叠矩阵和非负矩阵分解模型参数, 避免时频域上出现的排序歧义性问题, 提高了盲源分离性能. 大量的音频信号实验结果证明了该算法具有良好的分离性能, 优于目前流行的盲分离算法的分离性能. 特别是在低混响和低噪声环境下, 该算法具有明显的盲分离优势.

另外, 本文考虑的是时不变卷积混叠系统, 要求源信号的位置是固定不变的, 如会议室中的语音信号、录音棚中的音乐信号等应用场景. 而在实际复杂环境中, 源信号的位置常常是移动的, 同时伴随高混响、高噪声等不确定因素, 针对这种时变的卷积混叠系统, 在未来的科研工作中, 需要寻找更好的解决方案, 用新眼光新思路看问题, 设计鲁棒性、自适应性更好的盲源分离方法.

图 1 中文语音混叠信号盲源分离SDR性能对比

Fig. 1 SDR performance comparison for BSS of Chinese speech mixtures

下载: 全尺寸图片幻灯片

图 2 中文语音混叠信号盲源分离SIR性能对比

Fig. 2 SIR performance comparison for BSS of Chinese speech mixtures

下载: 全尺寸图片幻灯片

图 3 英文语音混叠信号盲源分离SDR性能对比

Fig. 3 SDR performance comparison for BSS of English speech mixtures

下载: 全尺寸图片幻灯片

图 4 英文语音混叠信号盲源分离SIR性能对比

Fig. 4 SIR performance comparison for BSS of English speech mixtures

下载: 全尺寸图片幻灯片

图 5 音乐混叠信号盲源分离SDR性能对比

Fig. 5 SDR performance comparison for BSS of music mixtures

下载: 全尺寸图片幻灯片

图 6 音乐混叠信号盲源分离SIR性能对比

Fig. 6 SIR performance comparison for BSS of music mixtures

下载: 全尺寸图片幻灯片

图 7 噪声对语音信号盲分离SDR性能的影响

Fig. 7 Effect of noise on SDR performance for BSS of Chinese speech mixtures

下载: 全尺寸图片幻灯片

图 8 噪声对语音信号盲分离SIR性能的影响

Fig. 8 Effect of noise on SIR performance for BSS of Chinese speech mixtures

下载: 全尺寸图片幻灯片

图 9 噪声对音乐信号盲分离SDR性能的影响

Fig. 9 Effect of noise on SDR performance for BSS of music mixtures

下载: 全尺寸图片幻灯片

图 10 噪声对音乐信号盲分离SIR性能的影响

Fig. 10 Effect of noise on SIR performance for BSS of music mixtures

下载: 全尺寸图片幻灯片

表 1 两组中文语音源信号

Table 1 Two groups of Chinese speech sources

中文数据	源信号	时长
语音 1	IC0936W0131	5 s
语音 2	IC0936W0134	5 s

下载: 导出CSV

表 2 两组英文语音源信号

Table 2 Two groups of English speech sources

英文数据	源信号	时长
语音 1	dev1_female3_src_1	10 s
语音 2	dev1_female3_src_2	10 s

下载: 导出CSV

表 3 两组音乐源信号

Table 3 Two groups of music sources

音乐数据	源信号	时长
音乐 1	dev1_wdrums_src_1	11 s
音乐 2	dev1_wdrums_src_3	11 s

下载: 导出CSV

表 4 高混响、高噪声环境中的实验结果

Table 4 Experimental results in high reverberation and high noise environment

	$RT_{60}=400$ ms		SNR = 5 dB
	SDR	SIR	SDR	SIR
Full-Rank	0.1969	4.5580	−4.2087	6.7379
VolMin-AO	1.1786	4.3729	−3.8684	6.6486
Rank1-NMF	−1.8239	0.7933	−9.8632	2.7641
RBTD	−6.7646	1.2411	−9.1111	1.8784
Proposed	1.0278	5.7190	−1.8554	4.6515

下载: 导出CSV

参考文献(50)

[1]	张贤达, 保铮. 盲信号分离. 电子学报, 2001, 29(z1): 1766-1771 doi: 10.3321/j.issn:0372-2112.2001.z1.010 Zhang Xian-Da, Bao Zheng. Blind signal separation. Acta Electronica Sinica, 2001, 29(z1): 1766-1771 doi: 10.3321/j.issn:0372-2112.2001.z1.010
[2]	Yilmaz O, Rickard S. Blind separation of speech mixtures via time-frequency masking. IEEE Transactions on Signal Processing, 2004, 52(7): 1830-1847. doi: 10.1109/TSP.2004.828896
[3]	Mcdermott J H. The cocktail party problem. Neural Computation, 2005, 17(9): 1875-1902 doi: 10.1162/0899766054322964
[4]	Ozerov A, Fevotte C. Multichannel nonnegative matrix factorization in convolutive mixtures for audio source separation. IEEE Transactions on Audio Speech and Language Processing, 2010, 18(3): 550-563 doi: 10.1109/TASL.2009.2031510
[5]	Ito N, Ikeshita R, Sawada H, Nakatani T. A joint diagonalization based efficient approach to underdetermined blind audio source separation using the multichannel wiener filter. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 1950-1965 doi: 10.1109/TASLP.2021.3079815
[6]	Shah G, Koch P, Papadias C B. On the blind recovery of cardiac and respiratory sounds. IEEE Journal of Biomedical and Health Informatics, 2015, 19(1): 151-157 doi: 10.1109/JBHI.2014.2349156
[7]	Xie Y, Xie K, Yang Q Y, Xie S L. Reverberant blind separation of heart and lung sounds using nonnegative matrix factorization and auxiliary function technique. Biomedical Signal Processing and Control, 2021, 69(7): Article No. 102899
[8]	Zhang S Q, You B, Lang X, Zhou Y F, An F, Dai Y, et al. Efficient rejection of artifacts for short-term few-channel EEG based on fast adaptive multidimensional sub-bands blind source separation. IEEE Transactions on Instrumentation and Measurement, 2021, 70: Article No. 4007516
[9]	Miettinen J, Nitzan E, Vorobyov S A, Ollila E. Graph signal processing meets blind source separation. IEEE Transactions on Signal Processing, 2020, 69: 2585-2599
[10]	Einizade A, Sardouie S H, Shamsollahi M B. Simultaneous graph learning and blind separation of graph signal sources. IEEE Signal Processing Letters, 2021, 28: 1495-1499 doi: 10.1109/LSP.2021.3093872
[11]	Yang Y C, Nagarajaiah S. Structural damage identification via a combination of blind feature extraction and sparse representation classification. Mechanical Systems and Signal Processing, 2014, 45(1): 1-23 doi: 10.1016/j.ymssp.2013.09.009
[12]	Yang Y C, Li S L, Nagarajaiah S, Li H, Zhou P. Real-time output-only identification of time-varying cable tension from accelerations via complexity pursuit. Journal of Structural Engineering, 2016, 142(1): Article No. 04015083
[13]	谢胜利, 何昭水, 傅予力. 基于稀疏元分析的欠定混叠自适应盲分离方法. 中国科学(E辑: 信息科学), 2007, 37(8): 1086-1098 Xie Sheng-Li, He Zhao-Shui, Fu Yu-Li. Underdetermined aliasing adaptive blind separation method based on sparse element analysis. Chinese Science (Series E: Information Science), 2007, 37(8): 1086-1098
[14]	Lathauwer L D, Castaing J. Blind identification of underdetermined mixtures by simultaneous matrix diagonalization. IEEE Transactions on Signal Processing, 2008, 56(3): 1096-1105 doi: 10.1109/TSP.2007.908929
[15]	汤辉, 王殊. 基于稳健联合分块对角化的卷积盲分离. 自动化学报, 2013, 39(9): 1502-1510 Tang Hui, Wang Shu. Robust joint block diagonalization based convolutive blind source separation. Acta Automatica Sinica, 2013, 39(9): 1502-1510
[16]	朱孝龙, 张贤达. 基于奇异值分解的超定盲信号分离. 电子与信息学报, 2004, 26(3): 337-343 Zhu Xiao-Long, Zhang Xian-Da, Overdetermined blind signal separation based on singular value decomposition. Journal of Electronics & Information Technology, 2004, 26(3): 337-343
[17]	Yatabe K, Kitamura D. Determined BSS based on time-frequency masking and its application to harmonic vector analysis. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 1609-1625 doi: 10.1109/TASLP.2021.3073863
[18]	肖明, 谢胜利, 傅予力. 基于超平面法矢量的欠定盲信号分离算法. 自动化学报, 2008, 34(2): 142-149 Xiao Ming, Xie Sheng-Li, Fu Yu-Li. Underdetermined blind signal separation algorithm based on hyperplane normal vector. Acta Automatica Sinica, 2008, 34(2): 142-149
[19]	Nion D, Mokios K N, Sidiropoulos N D, Potamianos A. Batch and adaptive PARAFAC-based blind separation of convolutive speech mixtures. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(6): 1193-1207 doi: 10.1109/TASL.2009.2031694
[20]	Matsuoka K. Minimal distortion principle for blind source separation. In: Procedings of the 3rd International Conference on Independent Component Analysis and Blind Signal Separation. Tobata, Japan: IEEE, 2001. 722−729
[21]	Sawada H, Mukai R, Araki S. A robust and precise method for solving the permutation problem of frequency-domain blind source separation. IEEE Transactions Speech Audio Processing, 2004, 12(5): 530-538 doi: 10.1109/TSA.2004.832994
[22]	Sawada H, Araki S, Mukai R. Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment. IEEE Transactions on Audio Speech and Language Processing, 2011, 19(3): 516-527 doi: 10.1109/TASL.2010.2051355
[23]	Xie K, Zhou G X, Yang J J, He Z S, Xie S L. Eliminating the permutation ambiguity of convolutive blind source separation by using coupled frequency bins. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(2): 589-599 doi: 10.1109/TNNLS.2019.2906833
[24]	Sawada H, Araki S, Mukai R, Makina S. Grouping separated frequency components by estimating propagation model parameters in frequency-domain blind source separation. IEEE Transactions on Audio Speech and Language Processing, 2007, 15(5): 1592-1604 doi: 10.1109/TASL.2007.899218
[25]	Xie S L, Yang L, Yang J M, Zhou G X, Xiang Y. Time-frequency approach to underdetermined blind source separation. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(2): 306-316 doi: 10.1109/TNNLS.2011.2177475
[26]	刘秋红, 许漫坤, 李天昀, 陆明明. 基于互补对称滤波器的APCMA信号的盲分离算法. 电子学报, 2020, 48(12): 2394-2401 Liu Qiu-Hong, Xu Man-Kun, Li Tian-Jun, Lu Ming-Ming. Blind separation algorithm of APCMA signal based on complementary symmetric filter. Acta Electronica Sinica, 2020, 48(12): 2394-2401
[27]	He Z S, Xie S L, Ding S X, Cichocki A. Convolutive blind source separation in the frequency domain based on sparse representation. IEEE Transactions on Audio Speech and Language Processing, 2007, 15(5): 1551-1563 doi: 10.1109/TASL.2007.898457
[28]	Xie Y, Xie K, Xie S L. Underdetermined blind source separation of speech mixtures unifying dictionary learning and sparse representation. International Journal of Machine Learning and Cybernetics, 2021, 12(12), 3573-3583 doi: 10.1007/s13042-021-01406-5
[29]	Xu Z B, Zhang H, Wang Y, Chang X Y, Liang Y. L_1/2 regularization. Science China (Information Sciences), 2010, 53(6): 1159-1169 doi: 10.1007/s11432-010-0090-0
[30]	Xu Z B, Chang X Y, Xu F M, Zhang H. L_1/2 Regularization: A thresholding representation theory and a fast solver. IEEE Transactions on Neural Networks and Learning Systems, 2012, 23(7): 1013-1027 doi: 10.1109/TNNLS.2012.2197412
[31]	Yang J J, Guo Y, Yang Z Y, Xie S L. Underdetermined convolutive blind source separation combining density-based clustering and sparse reconstruction in time-frequency domain. IEEE Transactions on Circuits and Systems I: Regular Papers, 2019, 66(8): 3015-3027 doi: 10.1109/TCSI.2019.2908394
[32]	Xie Y, Xie K, Xie S L. Underdetermined blind separation of source using L_p-norm diversity measures. Neurocomputing, 2020, 411, 259-267 doi: 10.1016/j.neucom.2020.06.029
[33]	Lee D D, Seung H S. Learning the parts of objects by non-negative matrix factorization. Nature, 1999, 401(6755): 788-791 doi: 10.1038/44565
[34]	Gillis N, Vavasis S A. Fast and robust recursive algorithms for separable nonnegative matrix factorization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(4): 698-714 doi: 10.1109/TPAMI.2013.226
[35]	Rahiche A, Cheriet M. Blind decomposition of multispectral document images using orthogonal nonnegative matrix factorization. IEEE Transactions on Image Processing, 2021, 30: 5997-6012 doi: 10.1109/TIP.2021.3088266
[36]	Kitamura D, Ono N, Sawada H, Kameoka H, Saruwatari H. Determined blind source separation unifying independent vector analysis and nonnegative matrix factorization. IEEE/ACM Transactions on Audio Speech and Language Processing, 2016, 24(9): 1626-1641 doi: 10.1109/TASLP.2016.2577880
[37]	Al-Tmeme A, Woo W L, Dlay S S, Gao B. Underdetermined convolutive source separation using GEM-MU with variational approximated optimum model order NMF2D. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017, 25(1): 31-45
[38]	Xie Y, Xie K, Xie S L. Underdetermined convolutive blind separation of sources integrating tensor factorization and expectation maximization. Digital Signal Processing, 2019, 87: 145-154 doi: 10.1016/j.dsp.2019.01.022
[39]	Sekiguchi K, Bando Y, Nugraha A A, Yoshii K, Kawahara T. Fast multichannel nonnegative matrix factorization with directivity-aware jointly-diagonalizable spatial covariance matrices for blind source separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2020, 28: 2610-2625 doi: 10.1109/TASLP.2020.3019181
[40]	Duong N, Vincent E, Gribonval R. Under-determined reverberant audio source separation using a full-rank spatial covariance model. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(7): 1830-1840 doi: 10.1109/TASL.2010.2050716
[41]	Bando Y, Sekiguchi K, Masuyama Y, Nugraha A A, Fontaine M, Yoshii K. Neural full-rank spatial covariance analysis for blind source separation. IEEE Signal Processing Letters, 2021, 28: 1670-1674 doi: 10.1109/LSP.2021.3101699
[42]	Kolda T. Tensor decompositions and applications. Siam Review, 2009, 51(3): 455-500 doi: 10.1137/07070111X
[43]	Weiss A. Blind direction-of-arrival estimation in acoustic vector-sensor arrays via tensor decomposition and Kullback-Leibler divergence covariance fitting. IEEE Transactions on Signal Processing, 2021, 69: 531-545 doi: 10.1109/TSP.2020.3043814
[44]	Mitsufuji Y, Takamune N, Koyama S, Saruwatari H. Multichannel blind source separation based on evanescent-region-aware non-negative tensor factorization in spherical harmonic domain. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29: 607-617 doi: 10.1109/TASLP.2020.3045528
[45]	Tan V Y F, Févotte C. Automatic relevance determination in nonnegative matrix factorization with the-divergence. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(7): 1592-1605 doi: 10.1109/TPAMI.2012.240
[46]	Audio Labs. RIR generator [Online], available: https://www.audiolabs-erlangen.de/fau/professor/habets/software/rir-generator, November 22, 2022
[47]	Vincent E, Gribonval R, Fevotte C. Performance measurement in blind audio source separation. IEEE Transactions on Audio Speech and Language Processing, 2006, 14(4): 1462-1469 doi: 10.1109/TSA.2005.858005
[48]	Fu X, Ma W K, Huang K, Sidiropoulos N. Blind separation of quasi-stationary sources: Exploiting convex geometry in covariance domain. IEEE Transactions on Signal Processing, 2015, 63(9): 2306-2320 doi: 10.1109/TSP.2015.2404577
[49]	AISHELL-ASR0009-OS1 open source mandarin speech corpus [Online], available: http://www.aishelltech.com/kysjcp, November 22, 2022
[50]	SiSEC 2013. Audio source separation [Online], available: http://sisec.wiki.irisa.fr/tiki-index.php?page=Professionally+produced+music+recordings, November 22, 2022

施引文献

期刊类型引用(7)

1.	解元，张旭，邹涛，马鸽，孙为军. 面向带混响和噪声环境的心肺音混合信号盲分离. 信息与控制. 2025(01): 150-160 . 百度学术
2.	张立亚，马征，郝博南，李标. 矿用5G通信信号传输的干扰监测技术. 工矿自动化. 2024(11): 62-69 . 百度学术
3.	解元，邹涛，孙为军，谢胜利. 基于混合混响模型的多通道语音增强算法. 通信学报. 2024(11): 15-26 . 百度学术
4.	李著成. 基于多策略红尾鹰算法的盲源分离研究. 探测与控制学报. 2024(06): 51-57 . 百度学术
5.	彭硕，陶亮，查文文，陈成鹏，辜丽川，朱诚，焦俊. 基于稀疏分量分析的生猪音频欠定盲源分离研究. 畜牧兽医学报. 2023(07): 2794-2809 . 百度学术
6.	解元，张旭，邹涛，马鸽，余锦视，孙为军. 结合脉冲响应重塑和期望最大化的盲信号分离. 电子学报. 2023(11): 3343-3353 . 百度学术
7.	莫海歌，胡显智，戴旭初. 有色信源卷积混合盲源分离算法. 通信技术. 2023(12): 1350-1358 . 百度学术

其他类型引用(1)

资源附件(0)

访问统计

图(10) / 表(4)

计量

文章访问数: 627
HTML全文浏览量: 309
PDF下载量: 199
被引次数: 8

1. 卷积混叠系统模型
2. 卷积混叠信号盲源分离算法
3. 仿真实验与结果分析
3.1 实验一. 中文语音混叠信号盲源分离
3.2 实验二. 英文语音混叠信号盲源分离
3.3 实验三. 音乐混叠信号盲源分离
3.4 实验四. 噪声对算法盲分离性能的影响
3.5 实验结果分析
4. 结论

1. 卷积混叠系统模型
2. 卷积混叠信号盲源分离算法
3. 仿真实验与结果分析
3.1 实验一. 中文语音混叠信号盲源分离
3.2 实验二. 英文语音混叠信号盲源分离
3.3 实验三. 音乐混叠信号盲源分离
3.4 实验四. 噪声对算法盲分离性能的影响
3.5 实验结果分析
4. 结论

参考文献(50)

施引文献

资源附件(0)

访问统计

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

面向卷积混叠环境下的盲源分离新方法

doi: 10.16383/j.aas.c211207

计量

Novel Blind Source Separation Method for Convolutive Mixed Environment

1. 卷积混叠系统模型

2. 卷积混叠信号盲源分离算法

3. 仿真实验与结果分析

3.1 实验一. 中文语音混叠信号盲源分离

3.2 实验二. 英文语音混叠信号盲源分离

3.3 实验三. 音乐混叠信号盲源分离

3.4 实验四. 噪声对算法盲分离性能的影响

3.5 实验结果分析

4. 结论

期刊类型引用(7)

其他类型引用(1)

计量

目录

1. 卷积混叠系统模型

2. 卷积混叠信号盲源分离算法

3. 仿真实验与结果分析

3.1 实验一. 中文语音混叠信号盲源分离

3.2 实验二. 英文语音混叠信号盲源分离

3.3 实验三. 音乐混叠信号盲源分离

3.4 实验四. 噪声对算法盲分离性能的影响

3.5 实验结果分析

4. 结论

留言板

面向卷积混叠环境下的盲源分离新方法

doi: 10.16383/j.aas.c211207

计量

出版历程

Novel Blind Source Separation Method for Convolutive Mixed Environment

1. 卷积混叠系统模型

2. 卷积混叠信号盲源分离算法

3. 仿真实验与结果分析

3.1 实验一. 中文语音混叠信号盲源分离

3.2 实验二. 英文语音混叠信号盲源分离

3.3 实验三. 音乐混叠信号盲源分离

3.4 实验四. 噪声对算法盲分离性能的影响

3.5 实验结果分析

4. 结论

期刊类型引用(7)

其他类型引用(1)

计量

出版历程

目录

1. 卷积混叠系统模型

2. 卷积混叠信号盲源分离算法

3. 仿真实验与结果分析

3.1 实验一. 中文语音混叠信号盲源分离

3.2 实验二. 英文语音混叠信号盲源分离

3.3 实验三. 音乐混叠信号盲源分离

3.4 实验四. 噪声对算法盲分离性能的影响

3.5 实验结果分析

4. 结论