2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

从大数据到大知识:HACE+BigKE

吴信东 何进 陆汝钤 郑南宁

游康勇, 杨立山, 郭文彬. 无线传感器网络下基于压缩感知的多目标分层贪婪匹配定位. 自动化学报, 2019, 45(3): 480-489. doi: 10.16383/j.aas.2018.c170237
引用本文: 吴信东, 何进, 陆汝钤, 郑南宁. 从大数据到大知识:HACE+BigKE. 自动化学报, 2016, 42(7): 965-982. doi: 10.16383/j.aas.2016.c160239
YOU Kang-Yong, YANG Li-Shan, GUO Wen-Bin. Hierarchical Greedy Matching Pursuit for Multi-target Localization in Wireless Sensor Networks Using Compressive Sensing. ACTA AUTOMATICA SINICA, 2019, 45(3): 480-489. doi: 10.16383/j.aas.2018.c170237
Citation: WU Xin-Dong, HE Jin, LU Ru-Qian, ZHENG Nan-Ning. From Big Data to Big Knowledge: HACE+BigKE. ACTA AUTOMATICA SINICA, 2016, 42(7): 965-982. doi: 10.16383/j.aas.2016.c160239

从大数据到大知识:HACE+BigKE

doi: 10.16383/j.aas.2016.c160239
基金项目: 

教育部长江学者和创新团队发展计划“多源海量动态信息处理” IRT13059

国家重点基础研究发展计划(973计划) 2013CB329604

国家自然科学基金 61229301

详细信息
    作者简介:

    何进 合肥工业大学计算机与信息学院硕士研究生.2015年获得安徽财经大学计算机科学与技术系学士学位.主要研究方向为数据挖掘和大数据分析.E-mail:flyingfish93319@126.com

    陆汝钤 中国科学院院士.1959年获得德国耶拿大学数学系学士学位.主要研究方向为知识工程, 基于知识的软件工程, 人工智能.E-mail:rqlu@math.ac.cn

    郑南宁:ZHENG Nan-Ning Member of the Chinese Academy of Engineering, IEEE Fellow, and professor at Xi'an Jiaotong University. He received his Ph. D. degree from Keio University (Japan) in 1985. His research interest covers pattern recognition, machine vision, and image processing

    通讯作者:

    吴信东 长江学者, IEEE Fellow, AAAS Fellow.合肥工业大学计算机与信息学院教授.美国佛蒙特大学计算机与科学系教授.1993年获得英国爱丁堡大学人工智能博士学位.主要研究方向为数据挖掘, 知识库系统, 万维网信息探索.本文通信作者.E-mail:xwu@hfut.edu.cn

From Big Data to Big Knowledge: HACE+BigKE

Funds: 

Program for Changjiang Scholars and Innovative Research Team in University (PCSIRT) of the Ministry of Education of China IRT13059

Supported by National Basic Research Program of China (973 Program) 2013CB329604

National Natural Science Foundation of China 61229301

More Information
    Author Bio:

    Master student at the College of Computer Science and Information Engineering, Hefei University of Technology. She received her bachelor degree from Anhui Finance and Economics University in 2015. Her research interest covers data mining and big data analytics

    Member of the Chinese Academy of Sciences. He received his bachelor degree from the University of Jena (Germany) in 1959. His research interest covers knowledge engineering, knowledge based software engineering, and artificial intelligence

    Corresponding author: WU Xin-Dong Professor at the College of Computer Science and Information Engineering, Hefei University of Technology; professor in the Department of Computer Science, the University of Vermont. He received his Ph. D. degree from the University of Edinburgh in 1993. His research interest covers data mining, knowledge based systems, and Web information exploration. Corresponding author of this paper
  • 摘要: 大数据面向异构自治的多源海量数据,旨在挖掘数据间复杂且演化的关联.随着数据采集存储和互联网技术的发展,大数据分析和应用已成为各行各业的研发热点.本文从大数据的本质特征开始,评述现有的几种大数据模型,包括5V,5R,4P和HACE定理,同时从知识建模的角度,介绍一种大数据知识工程模型BigKE来生成大知识,并对大知识的前景进行展望.
  • 随着无线通信技术的进步以及无线传感器网络(Wireless sensor network, WSN)和物联网等的高速发展, 如何精确定位监控区域内的多个目标已经成为信号处理领域中极具挑战和实际意义的问题.多目标定位可以应用于诸多场景, 例如, WSN中传感器节点定位[1]、室内定位[2]、污染源定位[3]、无线电监控等.

    传统的定位算法主要分为两类.一类是基于测距的定位算法, 典型算法有利用到达时间测距(Time of arrival, ToA)、利用到达时间差测距(Time difference of arrival, TDoA)、利用到达角度测距(Angle of arrival, AoA)和利用接收信号强度进行三边测距(Received signal strength indicator, RSSI)[4]; 一类是非测距的定位算法, 典型算法有DVhop定位[5]、基于信道感知定位[6]和RSSI指纹定位[7-8]等.然而这些方法都显示出一定的局限性.

    近年来, 压缩感知(Compressive sensing, CS)理论的兴起[9]为我们提供了一种全新的视角去看待多目标定位问题.通过对感知区域的网格化, 目标位置在空间域上的稀疏性为压缩感知理论体系的应用提供了可能.研究表明[10-11], 基于压缩感知的多目标定位方法能够实现比传统的定位方法更好的定位性能. Cevher等[12-13]提出了WSN中多目标定位的估计框架, 提出只需少量的测量, 便可以将目标位置的稀疏向量通过传感矩阵进行恢复.在此之后, Feng等[10]开始将多目标定位问题建立在压缩感知欠定方程上, 并采取了基追踪(Basis pursuit, BP)和基追踪降噪(Basis pursuit denoising, BPDN)等恢复算法进行仿真测试及性能比较. Zhang等[11]使用贪婪匹配追踪(Greedy matching pursuit, GMP)算法替代传统的压缩感知恢复算法, 提高了恢复的准确性, 同时对传感矩阵是否满足有限等距特性(Restricted isometry property, RIP)[9]进行了证明. Lin等[14]通过融合两种网格下的恢复结果获得了分集增益, 提高了定位精度.

    然而, 之前基于压缩感知定位的研究有诸多不足. 1)求解基于压缩感知的多目标定位问题时, 基于优化逼近的方法定位精度高但计算复杂, 基于贪婪恢复的方法计算简单却定位精度低; 2)简单使用一般的压缩感知恢复算法来实现定位, 忽略了多目标定位问题中丰富的结构信息, 无法有效提升定位性能; 3)为降低密集网格划分带来的强相关性, 文献中广泛采用的正交预处理方法[10]削弱了原始定位模型中的信噪比, 使得定位算法的抗噪性能大幅降低.

    鉴于此, 本文针对多目标定位问题, 给出了明确的系统模型, 证明预处理方法削弱模型信噪比, 提出一种新颖的基于压缩感知的层级贪婪匹配追踪定位算法(Hierarchical greedy matching pursuit, HGMP).所提算法具有线性计算复杂度, 提供了一种利用多目标定位场景中的结构信息实现快速贪婪定位的层级架构, 提高了多目标定位系统的定位精度和抗噪声性能.

    本节首先阐述基于德劳内三角剖分的空间网格化方法, 介绍基于压缩感知的多目标定位模型及各参数的意义.其次, 从压缩感知理论出发, 讨论定位问题中目标数、传感器数目、网格数目三者的相互制约关系.接着, 证明文献中广泛采用的基于正交的预处理操作本质上降低信噪比.最后, 在讨论部分阐述本文的主要动机.

    不失一般性, 设已知存在$K$个目标的二维感知区域被离散成$N$个网格点(目标服从感知区域内的连续均匀分布), 其中随机均匀散布$M$个传感器(位置已知), 每个传感器测量该点处的接收信号强度(Received signal strength, RSS).在空间网格点数目足够大的前提下, 可以用网格点近似估计目标的位置来确定$K$个目标发射源的位置.

    空间网格化是构建定位模型的第一步, 文献中广泛采用均匀矩形网格划分.理论上, 三角形和四面体是二维和三维空间的单纯形, 可以剖分任意复杂的几何形状.因三角剖分具有良好的灵活性和稳定性, 20世纪80年代后, 对三角剖分的研究飞速发展, 除了在有限元分析, 流体力学等传统领域大放光彩外, 在模式识别, 虚拟现实, 计算机视觉等领域也得到广泛的应用.

    本文采用新提出的基于德劳内三角剖分的空间网格化方法(Delaunay triangulation spatial gridding, DTSG)[14]. DTSG方法利用传感器节点和四个边界点作为原始网格点, 对感知区域进行初步的德劳内三角剖分, 然后依次添加各个德劳内三角形的重心作为新的网格节点, 重新对感知区域进行德劳内三角剖分, 如此迭代分裂, 直至网格点个数满足预设大小.相比均匀矩形网格, 其具有灵活、网格多分辨率、网格密度自适应的特点. Lin等[14]的研究显示, 统计平均意义下, DTSG网格划分方法的定位性能优于传统的均匀矩形网格划分方法.而实际中, 传感器的布置符合一定的先验知识, 如在无线电监控中, 固定监测站点和移动监测平台往往布置在非法电台出现机率大的区域.所以, 这种由传感器节点位置生成网格的空间划分方法更切合实际应用.图 1给出了$M=50$, $N=441$设定下DTSG网格划分结果.其中黑色圆点为随机布置的传感器节点, 灰色圆点为依据DTSG算法生成的网格节点, 五角星为目标发射源.图 1中的目标发射源节点用于示意定位模型, 由DTSG方法可知网格划分与目标无关.

    图 1  基于DTSG的三角网格划分
    Fig. 1  Triangulation grid using DTSG

    由于$K \ll N$, 所以目标的估计位置在空域上具有稀疏性.根据压缩感知理论, 多目标问题可以抽象为通过$M$维接收信号强度的有噪测量(噪声为测量噪声$n$, 近似为高斯噪声), 重建出$N$维空间中的$K$稀疏位置矢量的稀疏近似问题.模型为

    $ \begin{align}\label{model1} \boldsymbol{y} = \Phi \Psi \boldsymbol{x} + \boldsymbol{n} = A\boldsymbol{x} + \boldsymbol{n} \end{align} $

    (1)

    其中, 称为传感矩阵, 是一个过完备字典.在模型(1)中, 我们用网格点来近似真实的目标位置.各参数的意义如下:

    1) 目标稀疏位置矢量$\boldsymbol{x} \in {\bf R}_{+}^{N}$

    为$K$稀疏矢量, 编码了目标在网格点中的近似位置.如果目标被近似到第$i$个网格点上时, $x_i$为与目标功率有关的正数$C$, 否则为$0$.

    2) 基于RSS的稀疏基矩阵$\Psi \in {{\bf R}^{N \times N}}$

    的每一列$\pmb \psi_j$代表所有网格点对网格点$j$处目标的RSS测量.在不考虑信号增益的条件下, 网格点$j$处目标在网格点$i$上的接收信号强度满足空间传播的衰落模型[10]

    $ \begin{align}\label{propation1} RSS({d_{i, j}}) = {P_0} + {K_e} - 10\eta \lg \frac {{d_{i, \, j}}}{d_0} + \alpha + \beta \end{align} $

    (2)

    其中, $P_0$为信号发射功率, $K_e$为环境衰减因子, $d_{i, \, j}$为网格点$j$到网格点$i$的物理距离, $d_0$为近场参考距离. $\alpha$为快衰落的影响因子, $\beta$为阴影衰落的影响因子.显而易见, .不同于压缩感知原理中的稀疏基矩阵, 例如离散余弦变换基、快速傅里叶变换基、离散小波变换基等, 在多目标定位模型(1)中的稀疏基矩阵$\Psi$很可能不是$N$维空间的一个基矩阵, 即${\rm span}(\Psi)\subsetneq {{\bf R}^N}$.

    3) 测量矩阵$\Phi \in {{\bf R}^{M \times N}}$

    测量矩阵表示网格点中的传感器部署方案.多目标定位问题中, 稀疏基矩阵$\Phi$的前$M$列为传感器所在网格点, 所以测量矩阵形式为$\Phi =I_{M \times N}^M$ $=$ , 其中, $I_M$为$M$阶单位矩阵, 为全零矩阵.

    4) 测量结果矢量$\boldsymbol{y} \in {{\bf R}^M}$

    测量结果矢量$\boldsymbol{y}$为$M$个传感器的实际RSS测量结果. 中的任一元素$y_i$代表第$i$个传感器感知到的所有目标的功率叠加结果.

    $ \begin{align} {y_i} = \sum\limits_{j = 1}^K {RSS({d_{i, j}})} \end{align} $

    (3)

    在多目标定位问题中, 研究者感兴趣的问题是需要多少个接收传感器才能成功定位给定数目的目标发射源?网格划分越密集, 是否定位精度会越高?借由压缩感知理论, 可以获得关于这些问题的初步结论.

    对于无噪声压缩感知方程$\boldsymbol{y} = A\boldsymbol{x}$, 文献[11]证明, 若且$A$满足$(2K, \sigma)$的RIP条件, 则$\ell_1$范数最小化问题

    $ \begin{align}\label{L1min} \min{\lVert \boldsymbol{x} \rVert}_{1} ~~{\rm s.t.}~~\boldsymbol{y} = A\boldsymbol{x} \end{align} $

    (4)

    的解为$\hat{\boldsymbol{x}}$, 若$\boldsymbol{x}$是严格$K$稀疏信号, 则; 若$\pmb x$是非严格$K$稀疏信号, 则$\hat{\boldsymbol{x}}$能重建出$\boldsymbol{x}$最主要的$K$个系数.当$\boldsymbol{y}$受到噪声污染时, 压缩感知方程(1)的$\ell_1$范数最小化解的重建误差为${{c_0}{\epsilon_0}+{c_1}{\epsilon}}$, 其中${c_0}$, ${c_1}$为很小的正常数, $\epsilon_0$为$\boldsymbol{y}$的重建允许误差范围, ${\epsilon}$为无噪声时的重建误差.

    Zhang等[11]证明了多目标定位模型(1)的传感矩阵$A$以大概率满足RIP条件.所以从压缩感知的重构的角度来看, 给定网格划分结果确定了$A$的构成, 而$A$满足的RIP条件阶数又进一步确定了在当前传感矩阵下能够重构出的最大目标数$K$.同时, 为了重构出稀疏位置矢量$\boldsymbol{x}$, 传感器个数需满足$M$ $\ge$ ${\rm O}(K\lg (N/K))$.

    在多目标定位问题中, 目标位置的参数空间是连续的.基于压缩感知的定位方法通过把参数空间网格离散化获得对目标位置的网格点近似估计, 然后由这些网格点构成有限离散的过完备字典(即传感矩阵$A$).网格划分越精细, 网格点和真实目标之间的误差就越小, 但过密的网格会造成稀疏基字典中原子间的相关性越强, 进而使得压缩感知的重构性能下降[15], 有如下定理[12].

    定理1 [12]. 令$A \in {{\bf R}^{M \times N}}$为一个过完备字典, $\boldsymbol{a_j}$为其第$j$列, 定义相干性(Coherence) $\mu(A)$为

    $ \begin{align} \mu \left( A \right) = \mathop {\max }\limits_{1 \le i \ne j \le N} \frac{{\left| {\left\langle {\boldsymbol{a_i}, \boldsymbol{a_j}} \right\rangle } \right|}}{{{{\left\| {\boldsymbol{a_i}} \right\|}_2}{{\left\| {\boldsymbol{a_j}} \right\|}_2}}} \end{align} $

    (5)

    令$K \le 1 + 1/16u$, 当$M \ge {\rm O}(K\lg (N/K))$时, 任何$K$稀疏向量$\boldsymbol{x}$可以从测量$\boldsymbol{y} = A\boldsymbol{x}$中通过求解式(4)以大概率恢复.

    Cevher等[12]的研究表明, 在基于压缩感知的多目标定位场景中, $ \mu \left( A \right) $依赖于$\Delta /2D$.其中$\Delta$为网格精度, $D$为网格点和传感器之间的最大距离(由传感器部署和网格划分共同决定).从而, $\Delta$决定能够成功定位的目标数的下界, 而$D$决定其上界.

    另一方面, 为了缓解密集网格划分造成的传感矩阵各列之间的强相关性对压缩感知重建性能的影响, Feng等[10]提出一种基于正交的预处理方法降低了原始传感矩阵各列之间的相关性.此后, 这种预处理方法被研究者广泛使用[10, 14, 16], 下面对基于正交的预处理方法做出了详细介绍, 并证明在有噪情况下, 其本质上放大了噪声的影响, 降低了信噪比.

    定义1 (预处理算子T). 给定模型$\boldsymbol{y} = A\boldsymbol{x}+\boldsymbol{n}$, 定义线性预处理算子为.其中, $A^†$表示$A$的伪逆, 表示对矩阵$A$的规范正交化操作.

    设矩阵$A \in {\bf R}_r^{M \times N}$有SVD分解, 其中$U$和$V$均为正交矩阵, $\Sigma$的主对角线元素为$A$的奇异值, 非主对角元素为$0$. $r$为$A$的秩, $r \le M$.对测量结果矢量进行预处理

    $ \begin{align} T\boldsymbol{y} = &\ T ( A\boldsymbol{x} + \boldsymbol{n} ) = \notag \\ &\ { V^{\rm T}(:, 1:r) } V {\Sigma ^† } { U^{\rm T} } ( U \Sigma{ V^{\rm T} }\boldsymbol{x} +\boldsymbol{n} ) = \notag \\ &\ {V^{\rm T}(:, 1:r) } \boldsymbol{x} + \boldsymbol{n}' \end{align} $

    (6)

    其中, $\boldsymbol{n}' = I_{r \times N}^r{\Sigma ^† }{U^{\rm T}}\boldsymbol{n}$.记$\boldsymbol{z} = T\boldsymbol{y}$, 经过预处理后, 多目标定位模型(1)可以表示为

    $ \begin{align}\label{model2} \boldsymbol{z}= Q\boldsymbol{x} + \boldsymbol{n}' \end{align} $

    (7)

    其中, $V(:, 1:r)$为正交矩阵$V$的前$r$列构成的子矩阵.可以证明, 正交矩阵的随机子矩阵满足RIP条件[17].下文中, 称模型(1)为原始模型, 模型(7)为预处理模型, 相应地, $A$称为原始传感矩阵, $Q$称为预处理传感矩阵.

    可见, 相对原始传感矩阵$A$, 预处理传感矩阵$Q$的列间相关性已被大大降低.但预处理算子$T$并不是一个无损操作.从原始模型(1)到预处理模型(7), 相对信号功率, 预处理算子$T$放大了噪声水平, 即预处理算子$T$削弱了信噪比(Signal to noise ratio, SNR), 有如下定理.

    定义2 (信噪比SNR). 给定模型$\boldsymbol{y} = A\boldsymbol{x} + \boldsymbol{n}$, $\boldsymbol{x}$为随机向量.其中信号为$A\boldsymbol{x}$, 噪声.模型信噪比定义为

    $ \begin{align} SNR = \frac{{\rm E}({\lVert A\boldsymbol{x} \rVert}_2^2)}{{\rm E}({\lVert \boldsymbol{n} \rVert}_2^2)} \end{align} $

    (8)

    定理2. 给定模型$\boldsymbol{y} = A\boldsymbol{x} + \boldsymbol{n}$, 其中$A \in {\bf R}_M^{M \times N}$, 为随机向量且各分量$x_i$满足i.i.d. 条件.模型信噪比为$SNR_1$.对应预处理模型为, 模型信噪比为$SNR_2$.如果存在E$(x_i^2)$, $i=1, 2, \cdots, N$, 则$SNR_2$ $\le$ $SNR_1$.

    证明. $A =U \Sigma_1 V^{\rm T}$.其中,

    $ \Sigma_1 =[\Sigma \, \, O_{M \times (N-M)}], \ \ \Sigma = {\rm diag}\{s_1, s_2, \cdots, s_M\} $

    $s_i$为$A$的奇异值.

    记$V^{\rm T}\boldsymbol{x}=(v_1, v_2, \cdots, v_N)^{\rm T}$, , $1/s_2$, $\cdots, 1/s_M\}$.所以

    $ \begin{align*} &\lVert A\boldsymbol{x}\rVert_2^2 = \boldsymbol{x}^{\rm T}V\Sigma_1^{\rm T}U^{\rm T}U{\Sigma_1}V^{\rm T}\boldsymbol{x}=\mathop\sum\limits_{i=1}^{M}{s_i^2}{v_i}^2\\ &T=QA^† =[I_M, O_{M\times(N-M)}]V^{\rm T}\\ &\lVert TA\boldsymbol{x}\rVert_2^2 = \!\boldsymbol{x}^{\rm T}V\Sigma_1^{\rm T}U^{\rm T}U\Sigma^{†}\Sigma^{†}U^{\rm T}U{\Sigma_1}V^{\rm T}\boldsymbol{x}=\!\mathop\sum\limits_{i=1}^{M}{v_i}^2\\ &{\rm E}(\boldsymbol{n}^{\rm T}\boldsymbol{n})=M\sigma^2 \end{align*} $

    接下来考虑${\rm E}\{\lVert T\boldsymbol{n}\rVert_2^2\}$:

    $ {\rm E}\left\{ {\lVert T\boldsymbol{n}\rVert}_2^2 \right\}={\rm E}\left\{ {\lVert \Sigma^{†}U^{\rm T}\boldsymbol{n}\rVert}_2^2 \right\} $

    令$\boldsymbol{z}=U^{\rm T}\boldsymbol{n}$, $U$为正交矩阵.因为高斯白噪的正交变换仍为高斯白噪.所以, $ \boldsymbol{z}\sim {\rm N}(0, \sigma^{2}I)$.从而有

    $ {\rm E} \left\{ {\lVert \Sigma^{†}U^{\rm T}\boldsymbol{n}\rVert}_2^2 \right\} ={\rm E}\left\{ {\mathop\sum\limits_{i=1}^{M}{\dfrac{z_i^2}{s_i^2}}}\right\}= {\mathop\sum\limits_{i=1}^{M}{\dfrac{\sigma^2}{s_i^2}}} $

    所以

    $ \begin{align} &\frac{SNR_1}{SNR_2} = \frac{{\rm E}({\lVert A\boldsymbol{x} \rVert}_2^2){\rm E}({\lVert T\boldsymbol{n} \rVert}_2^2)} {{\rm E}({\lVert TA\boldsymbol{x} \rVert}_2^2){\rm E}({\lVert \boldsymbol{n} \rVert}_2^2)} \notag = \\ &\qquad \frac{{\rm E}\left(\mathop\sum\limits_{i=1}^{M}{s_i^2}{v_i}^2\right)\mathop\sum\limits_{i=1}^{M}{\frac{\sigma^2}{s_i^2}}} {{\rm E}\left(\mathop\sum\limits_{i=1}^{M}{v_i}^2\right)M\sigma^2}= \frac{\mathop\sum\limits_{i=1}^{M}{s_i^2}\mathop\sum\limits_{i=1}^{M}{\frac{1}{s_i^2}}} {M^2}\notag \end{align} $

    由Cauchy-Schwarz不等式, 有

    $ \begin{align} \mathop\sum\limits_{i=1}^{M}{s_i^2}\mathop\sum\limits_{i=1}^{M}{\frac{1}{s_i^2}} \ge \left(\mathop\sum\limits_{i=1}^{M}{s_i \frac{1}{s_i}}\right)^2=M^2 \notag \end{align} $

    综上所述

    $ \begin{align} SNR_2 \le SNR_1 \notag \end{align} $

    等号成立的条件为: $A$的所有奇异值都为1.

    在多目标定位模型(1)中, 按照空间传播损耗模型构建的原始传感矩阵$A$, 其奇异值一般远小于1, 根据定理2, 经过预处理算子$T$处理后, 预处理模型(7)的信噪比将远小于原始模型(1)的信噪比.

    由上述分析可知, 密集划分网格会造成$A$各列间的强相关性, 进而影响重建性能.而文献中为降低列间相关性而采取的正交预处理操作又被证明是放大噪声影响, 降低模型信噪比.然而, 对于定位场景, 只有目标附近的字典原子才会对真实的信号构成具有明显贡献, 远离目标的位置的原子划分并不会给定位带来益处.所以, 对于给定的网格化空间和相应的过完备字典$A$, 可以将观测子空间视为信号子空间和噪声子空间的叠加.

    此外, 在求解压缩感知定位问题上, 文献中采用的$\ell_1$范数最小化方法, 例如BP算法, 定位精度高, 抗噪声性能强, 但当$N$很大时, 其${\rm O}(N^3)$的计算成本过于昂贵. RIP条件意味着$A$近似正交的, 这启发了一系列通过迭代求解$\boldsymbol{x}$的$K$个最大稀疏的贪婪算法, 例如正交匹配追踪算法(Orthogonal matching pursuit, OMP)等.这些贪婪算法通常具有直观, 易于理解, 计算简单的优点.但在定位问题中, 其对噪声较为敏感, 且容易陷入局部最优解中.

    所以, 本文的主要动机为以贪婪重建的方式, 利用多目标定位场景中隐含的结构信息, 从观测子空间中分离出信号子空间, 降低测量噪声和网格密集划分所带来的强相关性的影响, 提升贪婪恢复的定位准确性.更具体地, 原始模型(1)中隐藏着丰富的结构信息, 预处理模型(7)适合于贪婪求解, 利用原始模型(1)和预处理模型(7)进行联合迭代贪婪定位, 将获得更优异的定位表现.

    本节首先分析多目标定位场景中隐含的结构信息.其次, 利用这些结构信息提出一种分层贪婪匹配追踪的多目标定位方法(HGMP).最后, 对所提算法的收敛性和计算复杂度做出分析.

    1) 团块模式

    原始模型(1)是对多目标定位问题的网格点近似, 真实的目标位置可能分布在感知区域的任何位置, 不一定精确地在网格点上.所以, 接收信号投影到网格空间上的能量将分散在真实目标附近的原子团上.迭代过程中, 残差投影到网格空间上的能量将分散在对当前残差贡献最大目标附近的原子团上.具体地, 在真实目标位置附近的网格点上, 压缩感知恢复系数或残差在网格空间上的投影具有相近的取值, 且幅度明显高于远离目标位置的网格点上的, 称这种模式为团块模式.图 2 (a)2 (b)分别展示的是恢复系数在网格点索引集上和网格空间上的团块模式. Yang等[16]注意到了恢复系数的团块模式, 其在BP算法的定位结果上利用KNN聚类对恢复位置进行加权平均, 鉴于BP算法的计算复杂度, 其很难被应用到实际中; 图 2 (c)展示的是在原始传感矩阵$A$上在OMP算法迭代过程中残差的团块模式, 可以清晰看到, 左边的目标对当前残差贡献最大, 其附近的原子团呈现出明显的团块模式; 图 2 (d)展示的是预处理传感矩阵$Q$上OMP算法迭代过程中残差在网格空间上的投影, 由于基于正交的预处理操作打乱了原始传感矩阵$A$中的相关性, 所以不再具有明显的团块模式.本文研究OMP算法迭代过程中残差在原始传感矩阵A的团块模式.

    图 2  多目标定位中的团块模式
    Fig. 2  Cluster pattern in multi-target localization

    2) 冗余信息

    如前所述, 为了在多目标定位问题中应用贪婪类压缩感知恢复算法, 文献中常采用预处理算子$T$.数学上, $T$是一个不可逆算子, 它把$M$维非稀疏矢量$\boldsymbol{y}$映射成$r$维()矢量$\boldsymbol{z}$, 再通过$\boldsymbol{z}$重建$N$维$K$稀疏矢量$\boldsymbol{x}$.前文的分析显示, $T$放大噪声的影响, 降低模型信噪比.此外, 预处理传感矩阵$Q$是一个正交矩阵的子矩阵, 相对原始传感矩阵而言, 其列之间的相关性已被大大降低.所以相对原始模型(1), 预处理模型损失了冗余的信息.对于一个系统来说, 冗余虽然带来有效性的降低, 但是另一方面, 却是系统可靠性的重要保障.在多目标定位问题中, 这种冗余信息的损失可以从$A$和$Q$的列相关性中得到解释. $A$中的每一列$\boldsymbol{a_j}$代表所有传感器对网格点$j$处目标的RSS测量, 空域中网格点$i$和网格点$j$距离越近, $\boldsymbol{a_i}$和$\boldsymbol{a_j}$就越相关.所以$A$的列之间的相关性具有清晰的物理意义.作为这种相关性在残差投影上的反映, 投影结果也会在空域上呈现出清晰的相关性, 如图 2 (c)所示, 残差在原始传感矩阵$A$上的投影呈现出清晰的团块模式.与此相反, 预处理传感矩阵$Q$是正交矩阵$V$的子矩阵, $Q$的列相关性已经无法直接体现空域上网格点间的相关性.如图 2 (d)所示, 残差在传感矩阵$Q$上的投影无清晰的团块模式.

    提出的HGMP算法是一种层级的贪婪算法, 利用多目标定位场景中的结构信息, 具有线性计算复杂度和很好的可解释性. HGMP算法的思想是以贪婪的方式, 逐步发掘多目标定位问题中的残差在原始传感矩阵中投影的团块模式, 进而利用预处理模型获得贪婪恢复.算法特征为:全局估计层获得目标可能位置的全局估计, 稀疏恢复层利用全局估计信息进行目标稀疏位置矢量压缩感知贪婪重建.有以下核心算法步骤.

    输入. 测量结果矢量$\boldsymbol{y}$, 原始感知矩阵$A$, 目标数$K$;

    输出. 目标位置恢复点集$P$, $\boldsymbol{x}$的$K$稀疏逼近$\hat{\boldsymbol{x}}$;

    初始化. 候选集$\Omega \leftarrow \phi $, 残差相关集$\Lambda \leftarrow \phi $, 删除集$\Delta \leftarrow \phi $, 残差$\boldsymbol{v} \leftarrow \boldsymbol{y}$, 格点索引集$\mathbb{N} \leftarrow \{ 1, 2$, $\cdots$, $N\}$;

    预处理. 计算预处理感知矩阵$Q$, 计算;

    全局估计层. 迭代量, 循环执行步骤$1$ $\sim$ $5$.

    步骤1. 寻找对当前残差贡献最大的原子团$\Lambda$ $\leftarrow$ $\{ j| \langle {\boldsymbol{v}, \boldsymbol{a_j}} \rangle > Th( {\boldsymbol{v}, A} )$, ;

    步骤2. 利用$\boldsymbol{z}$和$Q$, 在中进行局部正交匹配追踪, 得到$\Lambda$上的的恢复系数$\boldsymbol{\theta}$及其支撑集$\Pi$;

    步骤3. 对$\boldsymbol{\theta}$及其支撑集$ \Pi$正则化, 结果为;

    步骤4. 迭代更新. , ${\Delta \leftarrow \Delta \cup \Omega}$, $\boldsymbol{v}$ $\leftarrow$ $\boldsymbol{y}-A_{\Omega }A_{\Omega }^{†} \boldsymbol{y}$, ${i \leftarrow i + 1}$;

    步骤5. 如果, 进入下一次迭代, 返回步骤1;否则, 进入稀疏恢复层, 执行步骤6;

    稀疏恢复层.

    步骤6. 扩大候选集

    $ {\Omega \leftarrow \Omega \cup \left\{ {l\left. {\left| {l \in Neighbor(j, D), j \in \Omega , l \in \mathbb{N} \backslash \Omega } \right.} \right\}} \right.} $

    步骤7. 利用$\boldsymbol{z}$和$Q$, 在候选集$\Omega$中进行正交匹配追踪, 得到$\boldsymbol{x}$的$K$稀疏逼近$\hat{\boldsymbol{x}}$及其支撑集$P$; 其中, $A_\Omega$表示$A$的索引集为$\Omega$的列构成的子矩阵.步骤1中, $Th(\boldsymbol{v}, A)$是自适应动态门限, 定义为

    $ {Th(\boldsymbol{v}, A)=\max \{ A_{\mathbb{N} \backslash \Delta}^{\rm T}\boldsymbol{v} \}-{\rm std}(\{ A_{\mathbb{N} \backslash \Delta}^{\rm T}\boldsymbol{v} \}} $

    动态门限能够自适应地提取对当前残差贡献最大的原子团, 噪声水平高时, 残差投影系数的方差较大, 动态门限自适应地降低门限值来对抗噪声的干扰, 保证空域上与当前残差相关的目标附近格点能够被选入残差相关集$\Lambda$.反之, 当噪声水平低时, 动态门限会提高门限值, 减少选入残差相关集$\Lambda$中弱相关格点的数目.

    步骤3中, 正则化[18]处理旨在从恢复系数中找出幅度相近且具有最大能量的子集.给定恢复系数$\theta$及其下标集合$\Pi$, 在集合$\Pi$中寻找子集$\Pi_0$, 满足

    $ \left| {\theta_i} \right| \le 2\left| {\theta_j} \right|, \quad\forall i, j \in {\Pi _0} $

    正则化操作选择所有满足要求的子集$\Pi_0$中具有最大能量(的$\Pi_0$作为输出.

    步骤6中, $Neighbor(j, D)$指在空域上与格点$j$的欧氏距离小于门限值的格点集合.

    1) 收敛性和抗噪声性能

    不同于一般的基于压缩感知的定位方法, HGMP通过全局估计层获得目标可能位置的候选原子集合, 然后稀疏重建层在候选原子集合上获得最终的稀疏贪婪重建结果.这等效于从观测空间中分离出信号子空间, 然后在信号子空间上进行贪婪正交匹配追踪.在进行全局估计时, 利用原始传感矩阵$A$上残差投影的团块模式, 筛选出对当前残差贡献最大的原子团, 然后利用预处理传感矩阵$Q$易于贪婪恢复的优势获得局部正交匹配追踪恢复结果, 最后通过正则化处理从局部恢复结果中挑选出能量最大且贡献类似的原子团.由正则化操作的分析[18]可知, 最终全局估计层的输出原子团中一定包含OMP最终估计的$K$个原子, 而稀疏重建层算法是子空间上的OMP算法.所以, 在高信噪比条件下, HGMP将和OMP算法保持一致的收敛性.当信噪比较低时, OMP算法易受噪声干扰, 陷入局部最优解中, 而HGMP挑选原子的方法比OMP更为谨慎, 每次挑选出原子团而非单个最相关原子的模式也使得算法对噪声的鲁棒性更强.全局估计层把可能位置从$\mathbb{N}$缩小到候选集$\Omega$, 已经极大地去除了噪声造成的虚假目标位置候选点.所以, 在此基础上进行贪婪恢复定位具有明显的抗噪声优势.

    2) 计算复杂度

    步骤1中投影操作实质是矩阵向量乘法, 门限比对操作实质是一个遍历过程, 所以步骤1的复杂度为.

    步骤2把残差的能量正交投影到残差相关集$\Lambda$上, 实质上是一个OMP子问题, 复杂度为, 其中$C_1 = card(\Lambda)$且$C_1 \ll N$.

    步骤3中正则化操作实质上是大小为$C_1$的数集上的排序和二重循环遍历过程, 复杂度为 $+$ $K^{2})$.

    步骤4在候选集$\Omega$中更新残差涉及一个最小二乘问题, 复杂度为, 其中$C_2 =card(\Omega)$, 且满足$C_2 \ll N$.

    步骤6扩大候选集, 包含$C_2$个遍历格点集合的操作, 复杂度为.

    所以, 全局恢复层的复杂度为${\rm O}(K(MN +$ $MC_1^2$ $+$ .渐进地, 当$N$很大时, 占主导作用, 全局估计层的渐进复杂度为${\rm O}(KMN)$.

    稀疏恢复层是候选集上的稀疏度为$K$的OMP操作, 其复杂度为.

    综上所述, 当$N$较小时, HGMP算法计算复杂度不高于.当$N$很大时, HGMP算法的渐进复杂度为${\rm O}(KMN)$.

    为验证所提算法在抗噪性能和计算复杂度方面的提升, 采用经典的OMP算法和BP算法作为对比.此外, 为了对比算法在DTSG网格划分和均匀矩形网格划分上的性能, 对于同样的仿真参数设置, 每一次蒙特卡洛仿真中在两种网格上分别进行定位.仿真的硬件环境为Intel Core i7-6700处理器, 主频3.4 GHz, 8 GB内存; 软件环境为Windows 10 + MATLAB R2016a.

    平均定位正确率(Mean localization accuracy rate, MLAR).如果在距离真实目标$T_i$小于1 m的范围内能够找到恢复点$\hat{T_i}$, 认为目标$T_i$被成功定位, 恢复点$\hat{T_i}$被称为目标$T_i$的匹配恢复点.把被成功定位的目标个数${\#Successful\_Localized\_Targets}$与总目标个数${\#Targets}$的比值记为恢复的正确率.

    $ \begin{align} MLAR = \frac{{\#Successful\_ Localized\_Targets}}{{\#Targets}} \end{align} $

    (9)

    平均定位误差距离(Mean localization error distance, MLED)定义为目标$T_i$的真实位置$({x_i}$, ${y_i})$和最近的匹配恢复点位置$({\hat{x}_i, \hat{y}_i})$之间的平均欧氏距离, 公式为

    $ \begin{align} MLED = \frac{1}{K}\sum\limits_{i = 1}^K {\sqrt {{{({x_i} - {{\hat x}_i})}^2} + ({y_i} - {{\hat y}_i})^2} } \end{align} $

    (10)

    平均运行时间(Mean run time, MRT)指每次蒙特卡洛仿真中算法运行时间的平均值, 以此来评价算法的时间复杂度.

    感知区域设为$10\, {\rm m} \times 10\, {\rm m}$的方形区域, 网格点$N$ $=21 \times 21$, 目标数$K = 4$.目标有效全向辐射功率.稀疏基字典$\Psi$采用IEEE802.15.4标准中的室内传播损耗模型[14].

    $ \begin{align} & RSS(d) = \begin{cases} {P_t} - 40.2 - 20\lg d, &D \le 8\\ {P_t} - 58.5 - 33\lg \frac{d}{8}, &D > 8 \end{cases} \end{align} $

    (11)

    测量噪声为高斯白噪声, 为了有效验证算法的定位性能, 消除随机因素的影响, 取3 000次仿真的均值作为实验结果(每一次仿真均重新撒布目标和传感器, 重新构造空间网格).

    下文中均匀矩形网格划分简称为矩形网格, DTSG网格划分简称为三角网格.

    1) 抗噪声性能和计算复杂度

    图 3图 4分别给出了$M=50$时, 在均匀矩形网格划分和DTSG网格划分下各算法的平均定位正确率和平均定位误差距离受信噪比的影响.可以看出:

    图 3  噪声对平均定位正确率的影响
    Fig. 3  The influences of the noise level on MLAR
    图 4  噪声对平均定位误差距离的影响
    Fig. 4  The influences of the noise level on MLED

    a) 随着信噪比的增加, 各算法的平均定位正确率不断上升, 平均定位误差距离不断下降.当SNR $>$ 25 dB时, BP和OMP的定位性能趋于收敛, 当SNR $>$ 22 dB时, HGMP的定位性能趋于收敛.由于基于压缩感知的多目标定位模型是对真实目标位置的一个逼近模型, 当信噪比大于一定程度时, 多目标定位问题中的测量噪声不再是主要矛盾.对于图 3, 限制MLAR继续增加的主要因素为定义成功定位的精度(仿真中为1 m)和网格精度(网格划分带来的模型逼近误差, 仿真中平均网格间距为0.5 m); 对于图 4, 限制MLED继续降低的主要因素为网格精度.

    b) 在统计平均意义上, 对于BP算法和HGMP算法, DTSG三角网格划分和传统的均匀矩形网格划分的定位性能保持一致; 对于OMP, 在同样的噪声水平下, 三角网格划分能实现比均匀矩形划分更高的定位正确率和更低的定位误差距离.

    c) 在噪声占主要影响因素的前提下(SNR $<$ 25 dB), 通过在迭代过程中利用残差的团块模式, 限制在信号子空间上进行贪婪重建, HGMP的定位正确率和定位误差距离优于BP的, 远远优于OMP的, 显示出良好的抗噪能力.

    图 5给出上述实验过程中各算法的平均运行时间. HGMP算法的计算复杂度显著低于BP算法.随着信噪比的提高, HGMP的平均运行时间降低.这是因为噪声水平越低, 残差投影的团块结构越明显, 投影方差越小, 每次选入残差相关集$\Lambda$中的格点数目也越少, 从而运行时间也越少.同样的噪声水平下, HGMP算法在三角网格划分上的运行时间要高于矩形网格划分的, 近似是矩形网格划分的常数倍.这是因为计算残差相关集采取的动态门限函数和残差投影标准差相关, 由于三角网格划分的非均匀性和非规则性, 其投影方差大于均匀矩形网格划分的, 导致三角网格中的残差相关集包含更多的格点, 使得三角网格上的运行时间高于矩形网格上的.相对BP算法和HGMP算法, OMP只包含投影、最小二乘、更新残差三个步骤, 所以其计算最为简单, 但从图 3图 4可以看出, OMP低计算复杂度的代价是对噪声敏感, 当SNR较低时, 定位性能低于HGMP和BP.

    图 5  不同噪声水平下的平均运行时间
    Fig. 5  MRT under different noise level

    2) 传感器个数的影响

    图 6图 7分别给出了$SNR = 25$ dB条件下, 传感器数目为6, 8, 10, 15, 30, 40, 50时, 均匀矩形网格划分和DTSG网格划分下各算法的平均定位正确率和平均定位误差距离.可以清晰看出, 随着传感器的个数不断增加, 各算法的平均定位正确率不断上升, 平均定位误差距离不断下降, 但变化趋于平缓.对于$K=4$, $M=441$, 理论上需要传感器的下界为.从图 6图 7可以看出, 当传感器个数小于20时, 所有算法的平均定位误差距离都大于1 m, 平均定位正确率小于70 %.当传感器个数大于30时, 除了在矩形网格划分上的OMP算法外, 其他算法的平均定位误差距离都小于1 m, 相应的平均定位正确率大于82 %.统计意义上, 对于1 m范围的成功定位精度, 经验值和理论值之间的差距为11个传感器.其次, 对于同一传感器数目, HGMP在DTSG三角网格划分和均匀矩形网格划分下都显示出优于其他算法的定位性能, 且在DTSG三角网格划分下的HGMP定位性能最优.

    图 6  传感器个数对平均定位正确率的影响
    Fig. 6  The influences of sensor numbers on MLAR
    图 7  传感器个数对平均定位误差距离的影响
    Fig. 7  The influences of sensor numbers on MLED

    本文给出了一种新颖的基于压缩感知的多目标分层贪婪匹配定位方法(HGMP), 并证明了文献中广泛采用的正交预处理操作降低定位信噪比.所提算法从观测子空间中分离出信号子空间, 利用原始传感矩阵和预处理传感矩阵进行联合迭代贪婪定位, 提供一种利用多目标定位问题中丰富的结构信息实现鲁棒性贪婪定位的层级架构.理论分析和计算仿真表明, HGMP定位算法具有渐进线性复杂度${\rm O}(KMN)$.相同信噪比下, HGMP在不同网格划分上均展示出更好的定位性能.

  • 图  1  大数据处理框架的修改版[15]

    Fig.  1  A big data processing framework updated form[15]

    图  2  大数据知识工程模型——BigKE [39]

    Fig.  2  quad Big data knowledge engineering——BigKE [39]

  • [1] Beyer M A, Laney D. The importance of "Big Data":a definition[Online], available:https://www.gartner.com/doc/2057415, February 17, 2016
    [2] Marr B. Big data:the 5 Vs everyone must know[Online], http://www.linkedin.com/pulse/20140306073407-64875646-big-data-the-5-vs-everyone-must-know, January 21, 2016
    [3] Mervis J. Agencies rally to tackle big data. Science, 2013, 336(6077):22-22 http://cn.bing.com/academic/profile?id=1978954664&encoded=0&v=paper_preview&mkt=zh-cn
    [4] 王飞跃.软件定义的系统与知识自动化:从牛顿到默顿的平行升华.自动化学报, 2015, 42(1):1-8 http://www.aas.net.cn/CN/abstract/abstract18578.shtml

    Wang Fei-Yue. Software-deined systems and knowledge automation:a parallel paradigm shift from Newton to Merton. Acta Automatica Sinica, 2015, 42(1):1-8 http://www.aas.net.cn/CN/abstract/abstract18578.shtml
    [5] Fish A N. Knowledge Automation:How to Implement Decision Management in Business Processes. USA:Wiley, 2012.
    [6] Fernández A, Del Río S, López V, Bawakid A, Del Jesus M J, Benítez J M, Herrera F. Big data with cloud computing:an insight on the computing environment, MapReduce, and programming frameworks. Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery, 2014, 4(5):380-409 doi: 10.1002/widm.2014.4.issue-5
    [7] Kent S M. Sloan digital sky survey. Science with Astronomical Near-Infrared Sky Surveys. France:Springer, 1994. 27-30
    [8] Labrinidis A, Jagadish H V. Challenges and opportunities with big data. Proceedings of the VLDB Endowment, 2012, 5(12):2032-2033 doi: 10.14778/2367502
    [9] Knoll A, Meinkoehn J. Data fusion using large multi-agent networks:an analysis of network structure and performance. In:Proceedings of the 1994 IEEE International Conference on MFI'94, Multisensor Fusion and Integration for Intelligent Systems (MFI). Las Vegas, NV:IEEE, 1994. 113-120
    [10] Nature Editorial. Community cleverness required. Nature, 2008, 455(7209):1-1 doi: 10.1038/455001a
    [11] Che D R, Safran M, Peng Z Y. From big data to big data mining:challenges, issues, and opportunities. In:Proceedings of the 18th International Conference on Database Systems for Advanced Applications. Wuhan, China:Springer, 2013. 1-15
    [12] Stidston M. Business leaders need R's not V's:the 5 R's of big data[Online], available:https://www.mapr.com/blog/business-leaders-need-r%E2%80%99s-not-v%E2%80%99s-5-r%E2%80%99s-big-data#.U2qmcq1dWIU, December 21, 2015
    [13] 王济, 王琦.中医体质研究与4P医学的实施.中国中西医结合杂志, 2012, 32(5):693-695 http://www.cnki.com.cn/Article/CJFDTOTAL-ZZXJ201205035.htm

    Wang Ji, Wang Qi. Chinese constitution research and the practice of 4P medical model. Chinese Journal of Integrated Traditional and Western Medicine, 2012, 32(5):693-695 http://www.cnki.com.cn/Article/CJFDTOTAL-ZZXJ201205035.htm
    [14] Auffray C, Charron D, Hood L. Predictive, preventive, personalized and participatory medicine:back to the future. Genome Medicine, 2010, 2(8):57-57 doi: 10.1186/gm178
    [15] Wu X D, Zhu X Q, Wu G Q, Ding W. Data mining with big data. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(1):97-107 doi: 10.1109/TKDE.2013.109
    [16] Wikipedia. Big data[Online], available:https://en.wikipe-dia.org/wiki/Big_data#Definition, December 12, 2015
    [17] IDC权威定义大数据概念:满足4V标准[Online], available:http://www.d1net.com/bigdata/news/237143.html, December 12, 2015
    [18] Tien J M. Big data:unleashing information. Journal of Systems Science and Systems Engineering, 2013, 22(2):127-151 doi: 10.1007/s11518-013-5219-4
    [19] 王元卓, 靳小龙, 程学旗.网络大数据:现状与展望.计算机学报, 2013, 36(6):1125-1138 http://www.cnki.com.cn/Article/CJFDTOTAL-JSJX201306001.htm

    Wang Yuan-Zhuo, Jin Xiao-Long, Cheng Xue-Qi. Network big data:present and future. Chinese Journal of Computers, 2013, 36(6):1125-1138 http://www.cnki.com.cn/Article/CJFDTOTAL-JSJX201306001.htm
    [20] 王卫卫, 李小平, 冯象初, 王斯琪.稀疏子空间聚类综述.自动化学报, 2015, 41(8):1373-1384

    Wang Wei-Wei, Li Xiao-Ping, Feng Xiang-Chu, Wang Si-Qi. A survey on sparse subspace clustering. Acta Automatica Sinica, 2015, 41(8):1373-1384
    [21] Armbrust M, Fox A, Griffith R, Joseph A D, Katz R H, Konwinski A, Lee G, Patterson D A, Rabkin A, Stoica I, Zaharia M. Above the Clouds:A Berkeley View of Cloud Computing, Technical Report UCB/EECS-2009-28, EECS Department, University of California, Berkeley, 2009 http://cn.bing.com/academic/profile?id=2131629857&encoded=0&v=paper_preview&mkt=zh-cn
    [22] Blaabjerg F, Teodorescu R, Liserre M, Timbus A V. Overview of control and grid synchronization for distributed power generation systems. IEEE Transactions on Industrial Electronics, 2006, 53(5):1398-1409 doi: 10.1109/TIE.2006.881997
    [23] Leskovec J, Huttenlocher D, Kleinberg J. Signed networks in social media. In:Proceedings of the 2010 SIGCHI Conference on Human Factors in Computing Systems. New York:ACM, 2010. 1361-1370
    [24] Zikopoulos P, Eaton C. Understanding Big Data:Analytics for Enterprise Class Hadoop and Streaming Data. USA:McGraw-Hill Osborne Media, 2011.
    [25] The four V's of big data[Online], available:http://www.ib-mbigdatahub.com/sites/default/files/infographic_file/4-Vs-of-big-data.jpg, January 21, 2016
    [26] Lazer D, Kennedy R, King G, Vespignan A. The parable of google flu:traps in big data analysis. Science, 2014, 343(6176):1203-1205 doi: 10.1126/science.1248506
    [27] IBM. What is big data?[Online], available:http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html, December 2, 2015
    [28] Barwick H. The "four Vs" of big data. Implementing information infrastructure symposium[Online], available:http://www.computerworld.com.au/article/396198/iiis_four_vs_big_data, December 2, 2015
    [29] 数据并非越大越好:谷歌流感趋势错在哪儿了?[Online], available:http://www.guokr.com/article/438117/, December 2, 2015
    [30] Ghemawat S, Gobioff H, Leung S T. The Google file system. In:Proceedings of the 19th ACM Symposium on Operating Systems Principles. New York:ACM, 2003. 29-43
    [31] Dean J, Ghemawat S. MapReduce:simplified data processing on large clusters. In:Proceedings of the 6th Symposium on Operating Systems Design and Implementation. Berkeley, CA, USA:USENIX Association, 2004. 137-149
    [32] Big data solution offering[Online], available:http://mike2.openmethodology.org/wike/Big_Data_Solution_Offering, November 28, 2015
    [33] White T. Hadoop:The Definitive Guide (2nd Edition). USA:Yahoo Press, 2010. 1-4
    [34] Gupta P, Kumar P, Gopal G. Sentiment analysis on Hadoop with Hadoop streaming. International Journal of Computer Applications, 2015, 121(11):4-8 doi: 10.5120/21582-4651
    [35] Liao S H. Expert system methodologies and applications——a decade review from 1995 to 2004. Expert Systems with Applications, 2005, 28(1):93-103 doi: 10.1016/j.eswa.2004.08.003
    [36] 吴信东, 叶明全, 胡东辉, 吴共庆, 胡学钢, 王浩.普适医疗信息管理与服务的关键技术与挑战.计算机学报, 2012, 35(5):827-845 doi: 10.3724/SP.J.1016.2012.00827

    Wu Xin-Dong, Ye Ming-Quan, Hu Dong-Hui, Wu Gong-Qing, Hu Xue-Gang, Wang Hao. Pervasive medical information management and services:key techniques and challenges. Chinese Journal of Computers, 2012, 35(5):827-845 doi: 10.3724/SP.J.1016.2012.00827
    [37] Auffray C, Chen Z, Hood L. Systems medicine:the future of medical genomics and healthcare. Genome Medicine, 2009, 1(1):2-2 doi: 10.1186/gm2
    [38] 罗旭, 陈博, 罗莉娅, 张宏雁, 吴昊, 李景波. 4P医学理念下医院健康管理体系重构思考.中国医院, 2014, 18(7):61-63 http://www.cnki.com.cn/Article/CJFDTOTAL-ZGYU201407026.htm

    Luo Xu, Chen Bo, Luo Li-Ya, Zhang Hong-Yan, Wu Hao, Li Jing-Bo. Discussion on reconstructing hospital healthcare management under 4P medical conception. Chinese Hospitals, 2014, 18(7):61-63 http://www.cnki.com.cn/Article/CJFDTOTAL-ZGYU201407026.htm
    [39] Wu X D, Chen H H, Wu G Q, Liu J, Zheng Q H, He X F, Zhou A Y, Zhao Z Q, Wei B F, Li Y, Zhang Q P, Zhang S C, Lu R Q, Zheng N N. Knowledge engineering with big data. IEEE Intelligent Systems, 2015, 30(5):46-55 doi: 10.1109/MIS.2015.56
    [40] Klasnja P, Pratt W. Healthcare in the pocket:mapping the space of mobile-phone health interventions. Journal of Biomedical Informatics, 2012, 45(1):184-198 doi: 10.1016/j.jbi.2011.08.017
    [41] Vassis D, Belsis P, Skourlas C, Pantziou G. Providing advanced remote medical treatment services through pervasive environments. Personal and Ubiquitous Computing, 2010, 14(6):563-573 doi: 10.1007/s00779-009-0273-0
    [42] 合肥工业大学吴信东:大数据Processing Framework多层架构[Online], available:http://www.csdn.net/article/2012-07-27/2825305, December 7, 2015
    [43] Petersen W P, Arbenz P. Introduction to Parallel Computing. Oxford:Oxford University Press, 2004.
    [44] Corbett J C, Dean J, Epstein M, Fikes A, Frost C, Furman J J, Ghemawat S, Gubarev A, Heiser C, Hochschild P, Hsieh W, Kanthak S, Kogan E, Li H Y, Lloyd A, Melnik S, Mwaura D, Nagle D, Quinlan S, Rao R, Rolig L, Saito Y, Szymaniak M, Taylor C, Wang R, Woodford D. Spanner:Google's globally-distributed database. ACM Transactions on Computer Systems, 2012, 31(3):Article No.8 http://cn.bing.com/academic/profile?id=2112564224&encoded=0&v=paper_preview&mkt=zh-cn
    [45] Chang F, Dean J, Ghemawat S, Hsieh W C, Wallach D A, Burrows M, Chandra T, Fikes A, Gruber R E. BigTable:a distributed storage system for structured data. ACM Transactions on Computer Systems, 2008, 26(2):Article No.4 http://cn.bing.com/academic/profile?id=1981420413&encoded=0&v=paper_preview&mkt=zh-cn
    [46] Peel M, Rowley J. Information sharing practice in multi-agency working. ASLIB Proceedings, 2010, 62(1):11-28 doi: 10.1108/00012531011015172
    [47] Wang M D, Li B, Zhao Y X, Pu G G. Formalizing Google file system. In:Proceedings of the 20th IEEE Pacific Rim International Symposium on Dependable Computing (PRDC). Singapore:IEEE, 2014. 190-191
    [48] Cormode G, Srivastava D. Anonymized data:generation, models, usage. In:Proceedings of the 2009 ACM SIGMOD International Conference on Management of Data. Providence, RI:ACM, 2009. 1015-1018
    [49] Sweeney L. k-anonymity:a model for protecting privacy. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(5):557-570 doi: 10.1142/S0218488502001648
    [50] Kopanas I, Avouris N M, Daskalaki S. The role of domain knowledge in a large scale data mining project. Methods and Applications of Artificial Intelligence. Thessaloniki, Greece:Springer, 2002. 288-299
    [51] Salton G M, Wong A, Yang C S. A vector space model for automatic indexing. Communications of the ACM, 1975, 18(11):613-620 doi: 10.1145/361219.361220
    [52] Deerwester S C, Dumais S T, Furnas G W, Landauer T K, Harshman R. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 1990, 41(6):391-407 doi: 10.1002/(ISSN)1097-4571
    [53] Freedman E G, Shah P. Toward a model of knowledge-based graph comprehension. Diagrammatic Representation and Inference. Callaway Gardens, GA, USA:Springer, 2002. 18-30
    [54] Aral S, Walker D. Identifying influential and susceptible members of social networks. Science, 2012, 337(6092):337-341 doi: 10.1126/science.1215842
    [55] Centola D. The spread of behavior in an online social network experiment. Science, 2010, 329(5996):1194-1197 doi: 10.1126/science.1185231
    [56] Strassel S, Adams D, Goldberg H, Herr J, Keesing R, Oblinger D, Simpson H, Schrag R, Wright J. The DARPA machine reading program——encouraging linguistic and reasoning research with a series of reading tasks. In:Proceedings of the 7th International Conference on Language Resources and Evaluation. Valletta, Malta:European Language Resources Association, 2010. 986-993
    [57] Studer R, Benjamins V R, Fensel D. Knowledge engineering:principles and methods. Data and Knowledge Engineering, 1998, 25(1-2):161-197 doi: 10.1016/S0169-023X(97)00056-6
    [58] 潘云鹤, 王金龙, 徐从富.数据流频繁模式挖掘研究进展.自动化学报, 2006, 32(4):594-602 http://www.aas.net.cn/CN/abstract/abstract14320.shtml

    Pan Yun-He, Wang Jin-Long, Xu Cong-Fu. State-of-the-art on frequent pattern mining in data streams. Acta Automatica Sinica, 2006, 32(4):594-602 http://www.aas.net.cn/CN/abstract/abstract14320.shtml
    [59] 王珊, 王会举, 覃雄派, 周烜.架构大数据:挑战、现状与展望.计算机学报, 2011, 34(10):1741-1752 doi: 10.3724/SP.J.1016.2011.01741

    Wang Shan, Wang Hui-Ju, Qin Xiong-Pai, Zhou Xuan. Architecting big data:challenges, studies and forecasts. Chinese Journal of Computers, 2011, 34(10):1741-1752 doi: 10.3724/SP.J.1016.2011.01741
    [60] Guha S, Mishra N, Motwani R, O'Callaghan L. Clustering data streams. In:Proceedings of the 41st Annual Symposium on Foundations of Computer Science. Redono Beach, USA:IEEE, 2000. 359-366
    [61] 朱群, 张玉红, 胡学钢, 李培培.一种基于双层窗口的概念漂移数据流分类算法.自动化学报, 2011, 37(9):1077-1084 http://www.aas.net.cn/CN/abstract/abstract17531.shtml

    Zhu Qun, Zhang Yu-Hong, Hu Xue-Gang, Li Pei-Pei. A double-window-based classification algorithm for concept drifting data streams. Acta Automatica Sinica, 2011, 37(9):1077-1084 http://www.aas.net.cn/CN/abstract/abstract17531.shtml
    [62] 张昕, 李晓光, 王大玲, 于戈.数据流中一种快速启发式频繁模式挖掘方法.软件学报, 2005, 16(12):2099-2105 doi: 10.1360/jos162099

    Zhang Xin, Li Xiao-Guang, Wang Da-Ling, Yu Ge. A high-speed heuristic algorithm for mining frequent patterns in data stream. Journal of Software, 2005, 16(12):2099-2105 doi: 10.1360/jos162099
    [63] Wu X D, Yu K, Ding W, Wang H, Zhu X Q. Online feature selection with streaming features. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(5):1178-1192 doi: 10.1109/TPAMI.2012.197
    [64] Zhang Q, Zhang P, Long G D, Ding W, Zhang C Q, Wu X D. Towards mining trapezoidal data streams. In:Proceedings of the 2015 IEEE International Conference on Data Mining (ICDM'15). Atlantic City, NJ, USA:IEEE, 2015. 1111-1116
    [65] Wu X D, Yu K, Wang H, Ding W. Online streaming feature selection. In:Proceedings of the 27th International Conference on Machine Learning. Haifa, Israel, 2010. 1159-1166
    [66] Kivinen J, Smola A J, Williamson R C. Online learning with kernels. IEEE Transactions on Signal Processing, 2004, 52(8):2165-2176 doi: 10.1109/TSP.2004.830991
    [67] Kimeldorf G, Wahba G. Some results on Tchebycheffian spline functions. Journal of Mathematical Analysis and Applications, 1971, 33(1):82-95 doi: 10.1016/0022-247X(71)90184-3
    [68] Zhou Z H, Chawla N V, Jin Y C, Williams G J. Big data opportunities and challenges:discussions from data analytics perspectives[Discussion forum]. IEEE Computational Intelligence Magazine, 2014, 9(4):62-74 doi: 10.1109/MCI.2014.2350953
    [69] Vijayakumar S, D'Souza A, Schaal S. Incremental online learning in high dimensions. Neural Computation, 2005, 17(12):2602-2634 doi: 10.1162/089976605774320557
    [70] Hunter A, Summerton R. Fusion rules for context-dependent aggregation of structured news reports. Journal of Applied Non-Classical Logics, 2004, 14(3):329-366 doi: 10.3166/jancl.14.329-366
    [71] Žliobaitė I. Learning under concept drift:an overview. Computer Science——Artificial Intelligence[Online], available:http://arxiv.org/abs/1010.4784, May 31, 2015
    [72] 李建中, 刘显敏.大数据的一个重要方面:数据可用性.计算机研究与发展, 2013, 50(6):1147-1162 http://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201306006.htm

    Li Jian-Zhong, Liu Xian-Min. An important aspect of big data:data usability. Journal of Computer Research and Development, 2013, 50(6):1147-1162 http://www.cnki.com.cn/Article/CJFDTOTAL-JFYZ201306006.htm
    [73] Samarati P, Sweeney L. Protecting privacy when disclosing information:k-anonymity and its enforcement through generalization and suppression. In:Proceedings of the 1998 IEEE Symposium on Research in Security and Privacy. Palo Alto, CA:IEEE, 1998. 1-19
    [74] 王超, 杨静, 张健沛.基于轨迹特征及动态邻近性的轨迹匿名方法研究.自动化学报, 2015, 41(2):330-341 http://www.aas.net.cn/CN/abstract/abstract18612.shtml

    Wang Chao, Yang Jing, Zhang Jian-Pei. Research on trajectory privacy preserving method based on trajectory characteristics and dynamic proximity. Acta Automatica Sinica, 2015, 41(2):330-341 http://www.aas.net.cn/CN/abstract/abstract18612.shtml
    [75] Wu X D, Zhu X Q. Mining with noise knowledge:error-aware data mining. IEEE Transactions on Systems, Man, and Cybernetics——Part A:Systems and Humans, 2008, 38(4):917-932 doi: 10.1109/TSMCA.2008.923034
    [76] He H B, Garcia E A. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9):1263-1284 doi: 10.1109/TKDE.2008.239
    [77] 王飞跃.迈向知识自动化[Online], available:http://www.cas.cn/xw/zjsd/201401/t20140103_4009925.shtml, June 1, 2016
    [78] 邓建玲, 王飞跃, 陈耀斌, 赵向阳.从工业4.0到能源5.0:智能能源系统的概念、内涵及体系框架.自动化学报, 2015, 41(12):2003-2016 http://www.aas.net.cn/CN/abstract/abstract18774.shtml

    Deng Jian-Ling, Wang Fei-Yue, Chen Yao-Bin, Zhao Xiang-Yang. From industries 4.0 to energy 5.0:concept and framework of intelligent energy systems. Acta Automatica Sinica, 2015, 41(12):2003-2016 http://www.aas.net.cn/CN/abstract/abstract18774.shtml
    [79] Twitter Blog. Dispatch from the Denver debate[Online], available:http://blog.twitter.com/2012/100dispatch-reom-denver-debate.html, October 1, 2012
    [80] Chun D X, Jun C J, Zhong C Y, Chao T M, Cong P. Data engineering in information system construction. In:Proceedings of the 2012 IEEE Symposium on Robotics and Applications (ISRA). Kuala Lumpur:IEEE, 2012. 135-137
    [81] Aggarwal C C. . US:Springer, 2007.
    [82] Silva J A, Faria E R, Barros R C, Hruschka E R, de Carvalho A C P L F, Gama J. Data stream clustering:a survey. ACM Computing Surveys, 2013, 46(1):Article No.13 http://cn.bing.com/academic/profile?id=2088340225&encoded=0&v=paper_preview&mkt=zh-cn
    [83] Patil P D, Kulkarni P. Adaptive supervised learning model for training set selection under concept drift data streams. In:Proceedings of the 2013 International Conference on Cloud and Ubiquitous Computing and Emerging Technologies. Pune:IEEE, 2013. 36-41
    [84] Hakkani-Tür D, Heck L, Tur G. Using a knowledge graph and query click logs for unsupervised learning of relation detection. In:Proceedings of the 2013 IEEE International Conference on Acoustics, Speech, and Signal Processing. Vancouver, BC:IEEE, 2013. 8327-8331
    [85] Dantas J R V, Farias P P M. Conceptual navigation in knowledge management environments using NavCon. Information Processing and Management, 2010, 46(4):413-425 doi: 10.1016/j.ipm.2009.08.007
    [86] Xu C J, Li A P, Liu X M. Knowledge fusion and evaluation system with fusion-knowledge measure. In:Proceedings of the 2nd International Symposium on Computational Intelligence and Design. Changsha, China:IEEE, 2009. 127-131
    [87] Shahabi C, Zarkesh A M, Adibi J, Shah V. Knowledge discovery from users web-page navigation. In:Proceedings of the 7th International Workshop on Research Issues in Data Engineering. Birmingham:IEEE, 1997. 20-29
    [88] Baldauf M, Dustdar S, Rosenberg F. A survey on context-aware systems. International Journal of Ad Hoc and Ubiquitous Computing, 2007, 2(4):263-277 doi: 10.1504/IJAHUC.2007.014070
    [89] Herlocker J L, Konstan J A, Terveen L G, Riedl J T. Evaluating collaborative filtering recommender systems. ACM Transactions on Information Systems, 2004, 22(1):5-53 doi: 10.1145/963770
    [90] 岳元龙, 左信, 罗雄麟.提高测量可靠性的多传感器数据融合有偏估计方法.自动化学报, 2014, 40(9):1843-1852 http://www.aas.net.cn/CN/abstract/abstract18453.shtml

    Yue Yuan-Long, Zuo Xin, Luo Xiong-Lin. Improving measurement reliability with biased estimation for multi-sensor data fusion. Acta Automatica Sinica, 2014, 40(9):1843-1852 http://www.aas.net.cn/CN/abstract/abstract18453.shtml
    [91] Xu C, Zhang Y Q, Li R Z. On the feasibility of distributed kernel regression for big data. Statistics[Online], available:http://arxiv.org/abs/1505.00869, May 31, 2016
  • 期刊类型引用(10)

    1. 孟小燕. 融入自学习与多领导者策略的改进鲸鱼优化算法及多阈值图像分割. 计算机应用与软件. 2025(01): 205-212+233 . 百度学术
    2. 孙超. 伪对立学习与差分进化的改进鲸鱼优化算法及图像分割应用. 计算机应用与软件. 2024(09): 265-272+287 . 百度学术
    3. 柳长安,冯雪菱,孙长浩,赵丽娟. 基于改进麻雀算法的最大2维熵分割方法. 激光技术. 2022(02): 274-282 . 百度学术
    4. 李建华,王艺衡,杨来侠,李素丽,张聚良. 基于Canny算子和距离正则化水平集的乳腺植入物图像分割算法. 计算机应用与软件. 2022(10): 212-216+245 . 百度学术
    5. 邢致恺,贾鹤鸣,宋文龙. 基于莱维飞行樽海鞘群优化算法的多阈值图像分割. 自动化学报. 2021(02): 363-377 . 本站查看
    6. 宋杰,肖亮,练智超. 级联稀疏卷积与决策树集成的病理图像细胞核分割方法. 自动化学报. 2021(02): 378-390 . 本站查看
    7. 龚进慧,张贵仓. 自适应尺度参数的非均匀图像快速水平集分割. 计算机应用与软件. 2021(04): 231-238+304 . 百度学术
    8. 侯木舟,陈英皞. 基于改进的水平集模型工业零件图像分割方法. 中北大学学报(自然科学版). 2019(02): 155-160+166 . 百度学术
    9. 符艳军,孙开锋. 基于自动阈值分割的管内火焰大小计算. 自动化与仪器仪表. 2019(04): 118-121 . 百度学术
    10. 姚志文. 基于频域特征的机械焊缝缺陷图像分割仿真. 计算机仿真. 2019(12): 159-162+463 . 百度学术

    其他类型引用(8)

  • 加载中
图(2)
计量
  • 文章访问数:  3836
  • HTML全文浏览量:  612
  • PDF下载量:  2947
  • 被引次数: 18
出版历程
  • 收稿日期:  2016-03-03
  • 录用日期:  2016-05-31
  • 刊出日期:  2016-07-01

目录

/

返回文章
返回