-
摘要: 为了减少所需采集的视频数据量, 基于图像绘制(Image-based rendering, IBR) 的前沿方法将稠密视点信息映射成压缩感知框架中的原始信号, 并将稀疏视点图像作为随机测量值, 但低维测量信号由所有稠密视点信息线性组合而成, 而稀疏视点图像仅仅来源于部分视点信息, 导致稀疏视点采集的图像与低维测量信号不一致. 本文提出利用间隔采样矩阵消除测量信号与稀疏视点图像位置之间的差异, 进而通过约束由测量矩阵和基函数构成的传感矩阵尽量满足有限等距性, 使得能够获得原始信号的唯一精确解. 仿真实验结果表明, 相比于前沿方法, 本文提出的方法对于不同复杂程度的场景重建都提高了主客观质量.Abstract: In order to reduce the amount of video data that needs to be acquired greatly, state-of-the-art of the image-based rendering (IBR) method maps the dense viewpoint information into the original signal in the compressed sensing frame and utilizes sparse viewpoint images as random measurement information. However, the low-dimensional measurement signals are linearly combined using all of the dense viewpoint information, and the sparse viewpoint images only originate from partial viewpoint information, which results in the images acquired by the sparse viewpoints are inconsistent with the low-dimensional measurement signal. A sparse viewpoint measurement matrix is proposed, and an interval sampling matrix is used to align the sampling positions between the measured values and sparse viewpoint image information. Then, we constrain the sensing matrix, which consists of the measurement matrix and basis function, to satisfy the restricted isometry property as much as possible. Finally, the unique solution of the original signal can be obtained. The simulation results show that compared with conventional methods, the proposed method improves the subjective and objective quality for scene reconstruction with difierent levels of complexity.
-
Key words:
- Multi-view image reconstruction /
- image-based rendering (IBR) /
- epipolar plane image /
- compression perception
-
随着当代计算技术和多媒体技术的飞速发展, 追求用户高质量体验的沉浸式视频取得了长足的发展[1-2]. 一个多媒体系统, 其提供的显示和追踪技术如果可以用来在时间和空间上忠实地再现现实世界的感觉和行为, 就被称为沉浸[3].在视觉领域, 沉浸感就是指借助设备显示技术, 能够让参与到虚拟环境中的人们产生身临其境的临场感. 2016年, 多媒体产品工业界对于虚拟现实VR技术产生浓厚兴趣, Facebook、谷歌、微软、苹果等大公司都开展了相关技术研发, 并发布了相关VR产品.视频呈现的历史, 正是追逐更强沉浸式体验的技术发展过程.
为了增强沉浸感和互动性, 需要将现实世界的三维场景的全部信息进行记录, 并且能够为用户进行无失真的重现. 计算机视觉领域中, 场景的表示与重建技术是该问题主要的解决方案[4-5].
依据原始图像的数量可以将三维重建方法分为单视点图像三维重建和多视点图像三维重建. 单视点图像三维重建方法是基于单幅2D图像提取场景深度信息来构建立体视觉图像[6-7]. 由于多视点图像中包含更强的场景深度线索—视差, 基于图像的绘制技术(Image-based render, IBR)成为一种近年来较为热门的三维重建方法.该方法拍摄图像用于采集光线, 通过绘制对这些光线进行重组[8-9].
采集和重建是实现IBR渲染技术的主要方法.目前通用的方法需要的摄像机数量较多, 采集数据量大, 带来压缩和存储的巨大压力, 同时设备及带宽成本高昂; 若是减少摄像机数量, 则会导致重建内容产生跳跃性, 图像出现重影和模糊现象.
对IBR技术调研可知, 最先有Chai等[10]在2000年分析了全光函数的频带并找到最优的全光函数平均采样率. 在此基础上, Zhang等[11]将IBR的谱分析扩展到了更加通用的情况, 包括非Lambertian和遮挡场景. 他们利用一个表面全光函数首次研究了同心拼接的谱分析, 初步分析了非Lambertian反射和遮挡场景. 然而, 该方法在对全光函数进行分析时, 并没有指出在何种条件下全光函数为带限信号. 针对该问题, Do等[12-13]的论文指出: 除非场景表面是平的, 否则全光函数的频带不是带限的. Zhou等[14]扩展了对非Lambertian反射的光谱分析.通过将反射解析光场作为纹理信息, 建立了一个新的非Lambertian反射场景模型. 2014年, Gilliam等[15]首次提出了有限斜面的全光谱表达式, 并以此为基础对复杂场景进行合成.
2000年~2014年的研究大多将信号变换到傅里叶频域进行处理, 通过全光函数建模, 利用奈奎斯特采样定理推导最优的采样率, 方法较为传统.近年来, 许多新技术被应用于通过稀疏视点图像估计稠密视点图像的应用中.
2015年, Vagharshakyan等提出了一种重建密集采样光场的方法[16].通过一个由多视点校正相机采集得到的稀疏图像对光场进行重建, 而不需要对场景深度进行精确的估计, 所需的中间视图利用极化平面图像在剪切域里的稀疏性进行合成.
2016年, Heber等[17]利用卷积神经网络来预测光数据(Light field, LF)的深度.该方法根据2D超平面的方向学习LF和相应4D深度场以表示端到端的映射. 然后通过应用更高阶的正则化在后处理步骤中进一步细化所获得的预测.
2016年, Kalantari等[18]基于深度学习的方法使用两个卷积神经网络进行视差和颜色估计, LF的4个角视图用于合成中间视图.
2017年, Unde等[19]提出了基于迭代加权$ {L_1} $范数最小化的图像的块压缩感知框架重构算法和基于块的相关图像和视频帧联合重建算法, 编码复杂度低, 具有良好的压缩性能.
2017年, Ansari等[20]提出了一种基于提升的、可分离的、图像匹配的小波联合框架, 并将其应用于图像的重建.
2018年Vagharshakyan等[21]基于压缩感知框架的重建方法, 利用剪切波更灵活地对傅里叶频谱进行滤波, 以低于奈奎斯特采样定理的采样率进行稀疏视点的图像重建, 效果较好.
最新前沿方法[21]利用剪切波作为稀疏基, 通过随机测量矩阵获得低维测量信号, 基于压缩感知求解方法重建稠密多视点图像, 此时, 测量信号包含了原始稠密多视点图像尽可能多的信息熵[22].现实VR场景图像重建等应用场景中, 需要通过摄像机采集稀疏视点图像, 并将它们作为压缩感知框架中的低维信号.显然, 低维信号需要与测量矩阵相对应, 若是采用随机测量矩阵, 无法采集相应的低维测量信号. 本文提出构建稀疏视点测量矩阵, 基于该测量矩阵自适应构建稠密视点图像的稀疏基, 并使之满足压缩感知框架中获取唯一精确解的条件.
1. 基于压缩感知的多视点测量与稀疏基构建
1.1 压缩感知算法框架
根据压缩感知理论, 设原始信号为变量$ {\pmb x} $, 测量矩阵为$ \varPhi $, 采样后的信号为$ {\pmb y} $, 则:
$$ \begin{equation} {\pmb y} = \varPhi {{\pmb x}} \end{equation} $$ (1) 如果原始信号$ {\pmb x} $是稀疏信号, 则可通过求解以下式子获得信号$ {\pmb x} $近似无失真的重建信号$ \hat{\pmb x} $:
$$ \begin{equation} \hat{\pmb x} = {\rm{argmin}}{\left\| {\pmb x} \right\|_0}{\rm{, {\rm\ s.\, t.}} \ {\pmb y}} = {\varPhi} {\pmb x} \end{equation} $$ (2) 但是原始信号$ {\pmb x} $通常不满足稀疏性, 我们假设存在一个基$ {\varPsi } $, 使得:
$$ \begin{equation} {{\pmb x} = {\varPsi} {\pmb s} } \end{equation} $$ (3) 其中, s是稀疏的, 则将式(3)代入式(1)得:
$$ \begin{equation} {{\pmb y} = {\varPhi} {\varPsi} {\pmb s}} \end{equation} $$ (4) 因而, 可通过以下计算求解重建原始信号的估计$ {\hat{\pmb x}} $:
$$ \begin{equation} {{\hat{\pmb s}}} = {\rm{argmin}}{\left\| {{\pmb {s}}} \right\|_0}, {\rm{\ s.\, t. \ } {\pmb y}} = {\varPhi} {\varPsi} {{\pmb {s}, \hat{ \pmb x}}} = {\varPsi} {{\hat {\pmb s}}} \end{equation} $$ (5) 显然, 上面的公式需要先确定采样矩阵$ \varPhi $和稀疏基$ \varPsi $, 再通过稀疏表示求解方法获得.
1.2 动机与思路
由式(6)可知, 稀疏感知算法能够从观测值$ {\pmb {y}} $中, 通过稀疏优化求解方法, 估计出原始信号$ \pmb {x} $.由Candes-Romberg-Tao定理[23]可知, 式(6)中传感矩阵$ \varPhi \varPsi $必须满足RIP (Restricted isometry property)条件才能求得唯一解.由随机测量矩阵文献[24]可知, 随机测量矩阵与确定信号基(如小波基、傅里叶基)之间很大概率是不相关的, 低相关性保障了RIP条件的满足.并且, 随机测量矩阵使得观测数据的不确定性最大, 表明数据含有的信息熵最大.因此, 采用了压缩感知框架重建多视点图像的前沿方法[21], 观测矩阵$ \varPhi $采用随机测量矩阵, $ \varPsi $取剪切波基.然而, 在稠密多视点图像或视频的应用场景中(如光场重建, VR无缝漫游等), 相邻视点的间距小至几厘米, 一个几十平米的空间就需要成百上千的摄像头进行拍摄, 显然, 这导致成本高昂且数据量巨大. 因此, 需要通过采集稀疏视点图像用于估计出稠密视点图像.
如图 1所示, 假设奇数视点为稀疏视点, 偶数视点为待估计的虚拟视点, 所有视点为稠密视点.其中, 定义SVEPI表示由稀疏视点获得的对极平面图像(Epipolar-plane image, EPI), DVEPI表示由稠密视点得到的EPI.前沿方法将稠密视点映射成压缩感知框架中的原始信号$ \pmb {x} $, 并认为稀疏视点图像为测量信息. 但是, 在随机测量矩阵条件下, 测量信号值包含了所有稠密视点信息, 而SVEPI信息仅仅来源于稀疏视点信号, 两者不一致. 如果将SVEPI作为测量值, 显然会导致估计的原始信号不准确.因此, 需要重新构建稀疏视点测量矩阵, 使得测量值与稀疏视点采集的信息一致. 同时, 新的测量矩阵与稀疏基应满足压缩感知方法获取唯一精确解的RIP条件.
由图 1可看出, 稀疏视点信号仅仅是抽取稠密视点图像的局部位置信息, 因此, 首先将稠密视点图像按序列重组方式转化成向量, 然后通过测量矩阵线性操作(在抽取信息位置设置1, 如图 2中矩阵$ \varPhi $的颜色块; 其他位置设0, 如图 2中矩阵$ \varPhi $的白色块), 使得原始信号经过设计的稀疏视点测量矩阵, 获得与稀疏视点采集信息相一致的测量值. 此外, 基于设计的稀疏测量矩阵, 为了使压缩感知框架能够求解出唯一精确解需最大化满足RIP条件. 由于RIP常数衡量了测量矩阵$ \varPhi $与基矩阵$ \varPsi $乘积中任意两列之间的正交程度, 提出构建稀疏基函数的列相关性代价函数作为RIP条件约束, 同时设计基函数$ \varPsi $线性表示系数的稀疏约束项, 求解获得能够基于测量矩阵自适应的最优稀疏基矩阵.
2. 多视点稀疏测量的图像绘制算法
2.1 多视点信号的对极平面图像构建
由于对极平面原理, 不同视点拍摄的同一场景对象, 都会呈现在EPI图像的某一斜线上, 该斜率与视差有关, 并直接取决于对象与拍摄视点之间的景深. 因此, 可以利用对极平面图像(EPI)将不同视点中相应对象的信息聚集到同一图像, 使得进一步的处理能够更易于利用视点间的相关性.基于以上分析, 我们选择采用EPI来作为压缩感知框架中输入信号的表示方式.对极平面图像首先由Bolles等[25]提出. 与自然图像相比, EPI具有特定的斜线纹理结构, 如图 3所示. EPI构建方法如下所述.
设$ K $个视点图像分别为$ {{I}_1} $, $ {{I}_2} $, $ {{I}_3}, \cdots, $ $ {{I}_K} $.定义矩阵$ {{A}_m} $是第$ m $行都为1, 其他行都为0的矩阵, 矩阵$ {{A_{\rm{m}}}} $的大小等于图像大小, 表示如下:
$$ \begin{equation} {{A_m}} = \left[ {\begin{array}{*{20}{c}} 0&0&{\cdots}&0&0\\ \vdots & \vdots & \vdots & \vdots & \vdots \\ 1&1&{\cdots}&1&1\\ \vdots & \vdots & \vdots & \vdots & \vdots \\ 0&{\cdots}&{\cdots}&{\cdots}&0 \end{array}} \right]\begin{array}{*{20}{c}} 1\\ \vdots \\ m\\ \vdots \\ M \end{array} \end{equation} $$ (6) 则, EPI图可以表示为:
$$ \begin{equation} {E_m} = \sum\limits_{i = 1}^K {{{({I_i}. \times {A_m})}^{\rm T}}} \end{equation} $$ (7) 其中, T代表矩阵转置, $ m $代表多视点图像的第$ m $行, $ K $是代表多视点图像总个数.
2.2 多视点间隔采样的测量矩阵构建
由前述可知, 压缩感知框架中的随机测量矩阵并不能适用于现实场景的运用, 为了实现摄像机位置与观测矩阵相对应, 提出了采用等间隔采样矩阵作为测量矩阵的方法.
我们对EPI图的重建是基于分块进行的, 测量矩阵的设计原则如下: 能够从原始信号EPI分块向量中提取出对应视点位置采集到的信息.我们将稀疏测量矩阵$ \varPhi $定义为:
$$ \begin{equation} \varPhi(i, j) = \begin{cases} 1, &j = i + (\left\lceil i / y \right\rceil - 1) \times y \times t\\ 0, &\rm{其他情况} \end{cases} \end{equation} $$ (8) 其中, $ i \in \left[ {1:\left\lceil {\left( {x \times y} \right)/\left( {t + 1} \right)} \right\rceil } \right] $, $ j \in \left[ {1:x \times y} \right] $, $ \left( {x, y} \right) $为EPI块大小, $ t $为采样间隔.
采用等间隔矩阵后, 便可以设计出与矩阵相对应的摄像机摆放位置, 也是采用等间隔摆放的方式, 同时, 因为是测量矩阵的间隔采样特性, 测量值维度小于原始信号, 摄像机数量可以相应减少.
2.3 双约束代价构建与求解
不失一般性, 我们设被测信号为$ {\pmb {x}} $, 测量矩阵为$ \varPhi $和稀疏基$ \varPsi $, 由前面可知, 在多视点图像采集和重建中, 测量矩阵$ \varPhi $是设定已知的, 相关方法通常利用正则性约束稀疏求解[26-27].我们的任务是设计最优的稀疏基$ \varPsi $, 使其满足两个条件.条件1: 被测信号尽量被分解成稀疏的系数$ \pmb s $; 条件2: 能够利用稀疏优化求解方法获得精确解.
为了满足条件1, 我们构建稀疏约束正则项:
$$ \begin{equation} \min {\left\| {{\pmb {y}} - \varPhi \varPsi {\pmb {s}}} \right\|^2}\quad {\rm{ \ s.\, t. \ }}{\left\| {\pmb {s}} \right\|_0} \le \varepsilon \end{equation} $$ (9) 其中, $ {\pmb {y}} $为采集获得的信号, 我们使用EPI图的分块重组成列向量赋值$ {\pmb {y}} $, $ \varPhi $赋值为已知的间隔测量矩阵, $ \varepsilon $为稀疏度, $ \varPsi $为待求解矩阵变量.
为了满足条件2, 我们引入传感矩阵$ {{D}} = \varPhi \varPsi $, 根据测不准定理可知[24], 当$ {\left\| {\pmb {s}} \right\|_0} \le \frac{1}{2}(1 + \frac{1}{{\mu (D)}}) $时, $ {L_0} $范数问题等价于$ {L_1} $范数问题, 且它们有唯一解.我们所设计的最优稀疏基$ \varPsi $, 必须使得相关系数系数$ \mu (D) $最小.根据相干性的定义有, 设$ {\pmb d_{i, }}{\pmb d_j} $为列归一化的原子, 则:
$$ \begin{equation} \mu (D) = \max \left| {\langle {{\pmb d_i}, {\pmb d_j}} \rangle } \right|, \quad i \ne j \end{equation} $$ (10) 此外, 根据Welch定理[21]可知, 相干系数存在下界.设$ D\in{{\bf R}^{M \times K}} $, 其中$ {M<K} $, 列归一化, 则字典$ {D} $满足相干性, 且下界为WetchBound下界:
$$ \begin{equation} \mu (D) \ge \sqrt {\frac{{K - M}}{{M(K - 1)}}} \end{equation} $$ (11) 我们设$ {\mu _{\min }} = \sqrt {\frac{{K - M}}{{M(K - 1)}}} $, 因此, 需使得$ {D} $的相干系数逼近$ {\mu _{\min }} $. 假设:
$$ \begin{align} G = & {D^{\rm T}}D = \left[ {\begin{array}{*{20}{c}} {\pmb d_1^{\rm T}}\\ \vdots \\ {\pmb d_N^{\rm T}} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {{\pmb d_1}}& \cdots &{{\pmb d_N}} \end{array}} \right] = \\ & \left[ {\begin{array}{*{20}{c}} {{{\left\| {{\pmb d_1}} \right\|}^2}}&{\langle {{\pmb d_1}, {\pmb d_2}} \rangle }& \cdots &{\langle {{\pmb d_1}, {\pmb d_N}} \rangle }\\ {\langle {{\pmb d_2}, {\pmb d_1}} \rangle }&{{{\left\| {{\pmb d_2}} \right\|}^2}}& \cdots &{\langle {{\pmb d_1}, {\pmb d_2}} \rangle }\\ \vdots & \vdots & \ddots & \vdots \\ {\langle {{\pmb d_N}, {\pmb d_1}} \rangle }&{\langle {{\pmb d_{\rm{N}}}, {\pmb d_2}} \rangle }& \cdots &{{{\left\| {{\pmb d_N}} \right\|}^2}} \end{array}} \right]{\rm{ }} \end{align} $$ (12) 显然, 根据相干性的定义, 我们只需要使得矩阵$ {G} $上的元素逼近Welch下界, 由于$ {D} $是列向量归一化矩阵, 因此, $ {G} $对角线元素都为1.我们构建相干约束正则项为:
$$ \begin{equation} {\left\| {{D^{\rm T}}D - {G_\Lambda}} \right\|^2} \end{equation} $$ (13) 其中
$$ \begin{align} {G_\Lambda } = \, &\Big\{ {G_\Lambda } \in {{\bf R}^{N \times N}}: {\rm diag} \{G_\Lambda \} = 1, \\&{\rm{ }}\left| {\mathop {{g_{i, j}}}\limits_{i \ne j} } \right| = {\mu _{\min }}\Big\} \end{align} $$ (14) 综上所述, 我们计算求解多视点EPI分块稀疏基的代价函数为:
$$ \begin{align} &\arg \mathop {\min }\limits_{\varPsi, {\pmb s}} \left({\left\| {{\pmb y} - \varPhi \varPsi {\pmb s}} \right\|^2} + \lambda {\left\| {{D^{\rm T}}D - {G_\Lambda }} \right\|^2}\right)\quad \\&{\rm{\ s.\, t. \ }}{\left\| {\pmb {s}} \right\|_0} < \varepsilon \end{align} $$ (15) 其中, $ \lambda $为平滑因子, 可由用户设置.
由于有两个变量, 为了求解式(15), 需要分为两个阶段.
第一阶段, 假设$ \varPsi $为已知, $ \pmb s $为未知变量.这时, 相干性正则项为常量, 在最小化代价函数中不起作用, 因此, 求解代价函数(15)等价于求解函数:
$$ \begin{equation} \arg \mathop {\min }\limits_{\pmb s} \left\| {{\pmb {y}} - \varPhi \varPsi {\pmb {s}}} \right\|_F^2{\rm{\ s.t.}}\left\| {{\pmb {s}}} \right\| < \varepsilon \end{equation} $$ (16) 我们用正交匹配追踪算法(Orthogonal matching pursuit, OMP)求解.
第二阶段, 我们利用求解获得的$ \pmb s $设定为常量, 将$ \varPsi $设定为变量, 则求解(15)等价于:
$$ \begin{equation} \arg \mathop {\min }\limits_\varPsi ({\left\| {{\pmb y} - \varPhi \varPsi {\pmb s}} \right\|^2} + \lambda {\left\| {{D^{\rm T}}D - {G_\Lambda }} \right\|^2}){\rm{ }} \end{equation} $$ (17) 由于共轭梯度法是求解优化问题的常用方法, 且具有简单高效的特点, 本文利用共轭梯度法求解式(17).设:
$$ \begin{equation} f(\varPsi {\rm{)}} = {\left\| {{\pmb {y}} - \varPhi \varPsi {\pmb {s}}} \right\|^2} + \lambda {\left\| {{{(\varPhi \varPsi )}^{\rm T}}\varPhi \varPsi - {G_\Lambda }} \right\|^2} \end{equation} $$ (18) 通过矩阵求导可得:
$$ \begin{align} {\nabla _\varPsi }f = \, &{\rm{4(}}{\varPhi ^{\rm{T}}} \varPhi \varPsi {\varPsi ^{\rm T}}{\varPhi ^{\rm T}}\varPhi \varPsi - {\varPhi ^{\rm T}}\varPhi \varPsi {G_\Lambda })+ \\ & 2{\rm{(}}{\varPhi ^{\rm{T}}}{\pmb{y}}{{\pmb s}^{\rm T}} + {\varPhi ^{\rm{T}}}\varPhi \varPsi {\pmb {s}}{{\pmb {s}}^{\rm T}}) \end{align} $$ (19) 代入共轭梯度法求解, 从而获得原始信号:
$$ \begin{equation} {\pmb{x}} = \varPsi \pmb{s} \end{equation} $$ (20) 2.4 算法流程
综上所述, 多视点稀疏测量约束的图像绘制算法如图 4所示, 首先输入采集的稀疏多视点图像, 利用EPI模型将不同视点的对应信息集中表示, 构建稀疏视点测量矩阵, 通过建立稀疏性和传感矩阵列独立性的双约束代价求解稀疏基, 将获得的稀疏基和构建的测量矩阵代入压缩感知框架求解稀疏系数, 最后估计出稠密多视点图像.其中, 双约束代价的稀疏基求解算法如下:
任务: 通过求解下式, 找到最好的稀疏基矩阵用于表示低维数据样本$ {\pmb {y}} $:
$$ \begin{align} &\arg \mathop {\min }\limits_{\varPsi, {\pmb {s}}}\left ({\left\| {\pmb {y} - \varPhi \varPsi \pmb{s}} \right\|^2} + \lambda {\left\| {{D^{\rm T}}D - {G_\Lambda }} \right\|^2}\right)\\ &{\rm{\ s.\, t.}}\quad{\left\| {{\pmb {s}}} \right\|_0} < \varepsilon \end{align} $$ (21) 初始化: 设置稀疏基矩阵$ {\varPsi ^{{\rm{(0)}}}} \in {{\rm{\bf R}}^{n \times K}} $, 稀疏视点测量矩阵$ {\varPhi _{\pmb {s}}} $, 设$ J = 0. $
重复以下两个阶段直到收敛或满足退出条件:
1) 系数求解阶段: 使用OMP正交匹配追踪算法求解下式, 计算稀疏表示系数$ \pmb s $.
$$ \begin{equation} {{\pmb {s}}^{(J)}} = \arg \mathop {\min }\limits_{\pmb s} \left\| {{\pmb {y}} - \varPhi {\varPsi ^{{{(J)}}}}{\pmb {s}}} \right\|_F^2{\rm{\ s.\, t. \ }}\left\| {\pmb {s}} \right\| < \varepsilon \end{equation} $$ (22) 2) 基函数更新阶段: 固定前一阶段获得的$ \pmb s $, 利用共轭梯度法, 求解下式,
$$ \begin{align} {\varPsi ^{(J + {\rm{1}})}} = \, & {\rm{arg}}\mathop {\min }\limits_\varPsi\Big ({\left\| {{\pmb {y}} - \varPhi \varPsi {{\pmb s}^{{{(J)}}}}} \right\|^2} + \\ & {\rm \lambda} {\left\| {{{(\varPhi \varPsi )}^{\rm T}}\varPhi \varPsi - {G_\Lambda }} \right\|^2}\Big) \end{align} $$ (23) 同时更新$ J $值, 即$ J = J+1 $.
3. 实验
为了验证本文提出算法的有效性, 本实验通过Matlab实现了多视点稀疏测量的图像重建算法, 并利用了斯坦福提供的公共测试序列[28]分析算法的适用性.
基于分块的稀疏求解方法常用于图像恢复[29], 因而, 我们对EPI图像进行分块处理.针对分块大小的选择, 分别测试了由2$ \times $2、4$ \times $4、8$ \times $8三种块大小训练生成的稀疏表示基的重建误差. 其中, 稀疏表示基的向量个数非常重要, 需要测试基向量个数变化对于重建结果的影响. 因此, 该参数测试实验分析了不同分块情况下, 重建误差随着基向量个数变化的曲线情况, 如图 5所示.其中, 重建误差用原始图像与重建图像的均方根误差衡量.
从结果可以看出, 对于2$ \times $2的分块大小, 基向量个数的变化对于重建误差没有很大影响; 对于4$ \times $4和8$ \times $8的分块大小, 相同基向量情况下, 重建误差随着块增大逐渐变小, 但误差减小的幅度逐渐趋于平缓; 8$ \times $8分块具有更低的重建误差.因此, 本文采用8$ \times $8作为实验的分块大小.
为了验证本文算法的有效性, 对比测试了三种算法: 基于傅里叶基的压缩传感矩阵算法[9]、基于小波基的压缩传感矩阵算法[19]以及本文提出的基于多视点稀疏测量约束的压缩传感矩阵算法. 算法的参数设置如表 1所示: 1)三种算法的输入为相同的8组斯坦福公共测试序列; 2)压缩传感矩阵分别采用了传统的基于傅里叶基的压缩传感矩阵、前沿方法的基于小波基的压缩传感矩阵、本文提出的基于多视点稀疏测量约束的压缩传感矩阵, 该部分是导致三种算法差异的主要参数; 3)采样点数均为原采样点数量的一半; 4)测量均使用本文提出的多视点间隔测量矩阵.
表 1 算法参数说明Table 1 Algorithm parameter description重建方法 测试序列 压缩传感矩阵 采样点倍数 测量矩阵 傅里叶频域滤波重建 8组斯坦福公共测试序列 基于傅里叶基 0.5 多视点间隔测量矩阵 小波基稀疏重建 8组斯坦福公共测试序列 基于小波基 0.5 多视点间隔测量矩阵 多视点稀疏测量约束重建 8组斯坦福公共测试序列 基于多视点稀疏测量约束 0.5 多视点间隔测量矩阵 实验结果如图 6主观质量对比图所示, 其中图 6(a)为原始图像, 为了便于分析图片细节, 用方框截出来部分图片放大进行分析; 图 6(b)为基于傅里叶基的还原结果, 图 6(c)为基于小波基的重建结果, 图 6(d)为基于本文重多视点稀疏测量约束方法的重建结果.在与原始图像的对比中可以看到, 基于小波基的重建结果整体图像较为模糊, 有重影等现象存在, 这与理论结果相符; 基于小波基的重建图像整体清晰度高于基于傅里叶基的重建结果, 但是图像边缘位置容易模糊, 且有少部分图像出现重影; 基于本文方法的重建结果整体图像最为清晰, 边缘部分基本上无失真还原, 无重影现象.
表 2和表 3显示了用PSNR和SSIM两种方法评价的重建客观质量结果. 从中可以清晰地看到, 基于傅里叶基方法的重建图像PSNR、SSIM值最差, 基于小波基的方法对于PSNR、SSIM有所提高, 而用本文方法重建出来的PSNR、SSIM结果最好, 这与主观图像实验结果相符.
表 2 重建图像客观质量PSNR (平均值)比较Table 2 Comparison of objective quality PSNR (average) of reconstructed images重建方法 测试序列 Bracelet Bunny Cards and ball Chess Jelly Beans Knights Bulldozer Truck 傅里叶频域滤波重建 0.84 0.93 0.80 0.92 0.95 0.85 0.78 0.91 小波基稀疏重建 0.95 0.81 0.94 0.95 0.98 0.94 0.92 0.96 多视点稀疏测量约束重建 0.97 0.94 0.97 0.96 0.96 0.98 0.95 0.94 表 3 重建图像客观质量SSIM (平均值)比较Table 3 Comparison of objective quality SSIM (average) of reconstructed images重建方法 测试序列 Bracelet Bunny Cards and ball Chess Jelly Beans Knights Bulldozer Truck 傅里叶频域滤波重建 23.06 34.22 22.15 30.44 34.33 25.01 23.66 33.13 小波基稀疏重建 30.15 36.56 30.33 34.61 39.30 32.64 31.34 40.76 多视点稀疏测量约束重建 37.39 39.63 36..35 39.21 38.40 37.34 41.32 40.29 4. 结语
本文描述了一种从给定的稀疏视点通过相应的测量矩阵训练稀疏表示基, 优化求解原始EPI图分块, 进而重建稠密视点图象的方法.本文算法构建了均匀间隔采样的稀疏视点测量矩阵, 并基于该矩阵约束训练稀疏基, 进而求解基于多视点稀疏测量约束传感矩阵的压缩感知框架, 重建稠密多视点图像.通过仿真实验结果表明, 本文提出的方法在给定少量视点情况下, 重建稠密视点图象是非常有效的.提出的重建算法可应用于虚拟视点合成、多视点视频压缩后处理以及虚拟现实等.
-
表 1 算法参数说明
Table 1 Algorithm parameter description
重建方法 测试序列 压缩传感矩阵 采样点倍数 测量矩阵 傅里叶频域滤波重建 8组斯坦福公共测试序列 基于傅里叶基 0.5 多视点间隔测量矩阵 小波基稀疏重建 8组斯坦福公共测试序列 基于小波基 0.5 多视点间隔测量矩阵 多视点稀疏测量约束重建 8组斯坦福公共测试序列 基于多视点稀疏测量约束 0.5 多视点间隔测量矩阵 表 2 重建图像客观质量PSNR (平均值)比较
Table 2 Comparison of objective quality PSNR (average) of reconstructed images
重建方法 测试序列 Bracelet Bunny Cards and ball Chess Jelly Beans Knights Bulldozer Truck 傅里叶频域滤波重建 0.84 0.93 0.80 0.92 0.95 0.85 0.78 0.91 小波基稀疏重建 0.95 0.81 0.94 0.95 0.98 0.94 0.92 0.96 多视点稀疏测量约束重建 0.97 0.94 0.97 0.96 0.96 0.98 0.95 0.94 表 3 重建图像客观质量SSIM (平均值)比较
Table 3 Comparison of objective quality SSIM (average) of reconstructed images
重建方法 测试序列 Bracelet Bunny Cards and ball Chess Jelly Beans Knights Bulldozer Truck 傅里叶频域滤波重建 23.06 34.22 22.15 30.44 34.33 25.01 23.66 33.13 小波基稀疏重建 30.15 36.56 30.33 34.61 39.30 32.64 31.34 40.76 多视点稀疏测量约束重建 37.39 39.63 36..35 39.21 38.40 37.34 41.32 40.29 -
[1] Niamut O A, Kochale A, Hidalgo J R, Kaiser R, Spille J, Macq J F, et al. Towards a format-agnostic approach for production, delivery and rendering of immersive media. In: Proceedings of the 4th ACM Multimedia Systems Conference. Oslo, Norway: ACM, 2013. 249-260 [2] Deng C Y, Zhou Z G, Li W Q, Hou B Y. A panoramic geology field trip system using image-based rendering. In: Proceedings of the 40th IEEE Computer Software and Applications Conference. Atlanta, Georgia: IEEE, 2016. 264-268 [3] Doumanoglou A, Griffin D, Serrano J, Zioulis N. Quality of experience for 3-D immersive media streaming. IEEE Transactions on Broadcasting, 2018, 64(2): 379-391 doi: 10.1109/TBC.2018.2823909 [4] Zollhofer M, Stotko P, Gorlitz A, Theobalt C, Niessner M, Klein R, et al. State of the art on 3D reconstruction with RGB-D cameras. Computer Graphics Forum, 2018, 37(2): 625-652 doi: 10.1111/cgf.13386 [5] Kim C, Zimmer H, Pritch Y, Sorkine-Hornung A, Gross M. Scene reconstruction from high spatio-angular resolution light fields. ACM Transactions on Graphics, 2013, 32(4): 1-12 [6] 刘伟, 吴毅红. 基于图层优化与融合的2D-3D视频转换方法. 计算机辅助设计与图形学学报. 2012, 24(11): 1426-1439 doi: 10.3969/j.issn.1003-9775.2012.11.007Liu Wei, Wu Yi-Hong. A 2D-3D video conversion method based on layer optimization and integration. Journal of Computer-Aided Design & Computer Graphics, 2012, 24(11): 1426-1439 doi: 10.3969/j.issn.1003-9775.2012.11.007 [7] Liu W, Wu Y H, Guo F S, Hu Z Y. An efficient approach of 2D to 3D video conversion based on piece-wise structure from motion. The Visual Computer, 2015, 31(1): 55-68 doi: 10.1007/s00371-013-0904-3 [8] Wu G C, Liu Y B, Fang L, Dai Q H, Chai T Y. Light field reconstruction using convolutional network on EPI and extended applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(1): 1681-1694 doi: 10.1109/TPAMI.2018.2845393 [9] Zhu H, Wang Q, Yu J Y. Light field imaging: models, calibrations, reconstructions, and applications. Frontiers of Information Technology & Electronic Engineering, 2017, 18(9): 1236-1249 [10] Chai J X, Tong X, Chan S C, Shum H Y. Plenoptic sampling. In: Proceedings of the 27th annual conference on computer graphics and interactive techniques, New York, USA: ACM, 2000. 307-318 [11] Zhang C, Chen T. Spectral analysis for sampling image-based rendering data. IEEE Transactions on Circuits and Systems for Video Technology, 2003, 13(11): 1038-1050 doi: 10.1109/TCSVT.2003.817350 [12] Do M N, Marchand-Maillet D, Vetterli M. On the bandlimitedness of the plenoptic function. In: Processings of the 2005 IEEE International Conference on Image Processing, New York, USA: IEEE, 2005. 17-20 [13] Do M N, Marchand-Maillet D, Vetterli M. On the bandwidth of the plenoptic function. IEEE Transactions on Image Processing, 2012, 21(2): 708-717 doi: 10.1109/TIP.2011.2163895 [14] Zhou P, Yu L, Zhong G. The non-lambertian reflection in plenoptic sampling. In: Proceedings of the 2013 IEEE International Conference on Image Processing. New York, USA: IEEE, 2013. 2154-2157 [15] Gilliam C, Dragotti P L, Brookes M. On the spectrum of the plenoptic function. IEEE Transactions on Image Processing, 2014, 23(2): 502-516 doi: 10.1109/TIP.2013.2292363 [16] Vagharshakyan S, Bregovic R, Gotchev A. Image based rendering technique via sparse representation in shearlet domain. In: Prceedings of International Conference on Image Processing. New York, USA: IEEE, 2015. 1379-1383 [17] Heber S, Pock T. Convolutional networks for shape for light field. In: Proceedings of the 2016 IEEE International Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2016. 3746-3754 [18] Kalantari N K, Wang T C, Ramamoorthi R. Learning based view synthesis for light field cameras. ACM Transactions on Graphics, 2016, 35(6): 1-10 [19] Unde A S, Deepthi P P. Block compressive sensing: Individual and joint reconstruction of correlated images. Journal of Visual Communication and Image Representation, 2017, 44: 187-197 doi: 10.1016/j.jvcir.2017.01.028 [20] Ansari N, Gupta A. Image reconstruction using matched wavelet estimated from data sensed compressively using partial canonical identity matrix. IEEE Transaction on Image Processing, 2017, 26(8): 3680-3695 doi: 10.1109/TIP.2017.2700719 [21] Vagharshakyan S, Bregovic R, Gotchev A. Light field reconstruction using shearlet transform. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(1): 133-147 doi: 10.1109/TPAMI.2017.2653101 [22] Ji S H, Xue Y. Carin L. Bayesian compressive sensing. IEEE Transactions on Signal Processing, 2008, 56(6): 2346-2356 doi: 10.1109/TSP.2007.914345 [23] Candes E J, Romberg J, Tao T. Stable signal recovery from incomplete and inaccurate measurements. Communications on Pure and Applied Mathematics, 2006, 59(8): 1207-1223 doi: 10.1002/cpa.20124 [24] Candes E J, Romberg J, Tao T. Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency information. IEEE Transactions on Information Theory, 2006, 52(2): 489-509 doi: 10.1109/TIT.2005.862083 [25] Bolles R C, Baker H H, Marimont D H. Epipolar-plane image analysis: an approach to determining structure from motion. International Journal of Computer Vision, 1987, 1(1): 7-55 doi: 10.1007/BF00128525 [26] 陈允杰, 葛魏东, 孙乐. 一种基于协同稀疏和全变差的高光谱线性解混方法. 自动化学报, 2017, 44(1): 116-128 doi: 10.16383/j.aas.2018.c160414Chen Yun-Jie, Ge Wei-Dong, Sun Le. A novel linear hyperspectral unmixing method based on collaborative sparsity and total variation. Acta Automatica Sinica, 2017, 44(1): 116-128 doi: 10.16383/j.aas.2018.c160414 [27] 常振春, 禹晶, 肖创柏, 孙卫东. 基于稀疏表示和结构自相似性的单幅图像盲解卷积算法. 自动化学报, 2017, 43(11): 1908-1919 doi: 10.16383/j.aas.2017.c160357Chang Zhen-Chun, Yu Jing, Xiao Chuang-Bai, Sun Wei-Dong. Single image blind deconvolution using sparse representation and structural self-similarity. Acta Automatica Sinica, 2017, 43(11): 1908-1919 doi: 10.16383/j.aas.2017.c160357 [28] Vaish V, Adams A. The (New) Stanford light field archive [Online], available: http://lightfield.stanford.edu, October 18, 2018 [29] 黄博学, 周彤. 利用Block-StOMP的一种改进算法高效重构块稀疏信号. 自动化学报, 2017, 43(9): 1607-1618 doi: 10.16383/j.aas.2017.e150116Huang B X, Zhou T. Efficient recovery of block sparse signals by an improved algorithm of Block-StOMP. Acta Automatica Sinica, 2017, 43(9): 1607-1618 doi: 10.16383/j.aas.2017.e150116 期刊类型引用(1)
1. 白宗龙,师黎明,孙金玮. 基于自适应LASSO先验的稀疏贝叶斯学习算法. 自动化学报. 2022(05): 1193-1208 . 本站查看
其他类型引用(1)
-