2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于Word2vec和粒子群的链路预测算法

贾承丰 韩华 吕亚楠 张路

贾承丰, 韩华, 吕亚楠, 张路. 基于Word2vec和粒子群的链路预测算法. 自动化学报, 2020, 46(8): 1703−1713 doi: 10.16383/j.aas.c180187
引用本文: 贾承丰, 韩华, 吕亚楠, 张路. 基于Word2vec和粒子群的链路预测算法. 自动化学报, 2020, 46(8): 1703−1713 doi: 10.16383/j.aas.c180187
Jia Cheng-Feng, Han Hua, Lv Ya-Nan, Zhang Lu. Link prediction algorithm based on Word2vec and particle swarm. Acta Automatica Sinica, 2020, 46(8): 1703−1713 doi: 10.16383/j.aas.c180187
Citation: Jia Cheng-Feng, Han Hua, Lv Ya-Nan, Zhang Lu. Link prediction algorithm based on Word2vec and particle swarm. Acta Automatica Sinica, 2020, 46(8): 1703−1713 doi: 10.16383/j.aas.c180187

基于Word2vec和粒子群的链路预测算法

doi: 10.16383/j.aas.c180187
基金项目: 

中央高校基本科研业务费 185214003

中央高校基本科研业务费 2018-zy-137

详细信息
    作者简介:

    贾承丰  武汉理工大学理学院硕士研究生.主要研究方向为复杂网络, 机器学习. E-mail: 13986076510@163.com

    吕亚楠   武汉理工大学理学院硕士研究生.主要研究方向为链路预测, 复杂网络. E-mail: lyn@whut.com

    张路  武汉安天科技公司数据挖掘工程师.主要研究方向为自然语言处理, 机器学习. E-mail: 17838907371@163.com

    通讯作者:

    韩华  博士, 武汉理工大学理学院教授.主要研究方向为系统预测, 复杂网络, 经济决策.本文通信作者. E-mail: hhua@whut.com

Link Prediction Algorithm Based on Word2vec and Particle Swarm

Funds: 

Fundamental Research Funds for the Central Universities 185214003

Fundamental Research Funds for the Central Universities 2018-zy-137

More Information
    Author Bio:

    JIA Cheng-Feng Master student at the School of Science, Wuhan University of Technology. His research interest covers complex network and machine learning

    LV Ya-Nan Master student at the School of Science, Wuhan University of Technology. Her research interest covers link prediction and complex network

    ZHANG Lu The data mining engineer of Wuhan Antiy Technology Co., Ltd. His research interest covers natural language processing and machine learning

    Corresponding author: HAN Hua Ph. D., professor at the School of Science, Wuhan University of Technology. Her research interest covers system prediction, complex network, economic decision-making. Corresponding author of this paper
  • 摘要: 链路预测中普遍存在两大问题:特征提取困难和类别数据不平衡.本文借鉴文本处理中的深度学习特征提取算法和优化问题中的粒子群算法, 提出一种基于词向量的粒子群优化算法(Word2vec-PSO).该方法首先通过随机游走产生网络序列后, 利用Word2vec算法对节点序列特征提取.然后在有监督的条件下, 利用粒子群算法对提取好的特征进行筛选, 并确定重采样的参数来解决类别数据不平衡问题, 并分析了不同链路预测算法的计算复杂性.最后将本文的算法与基于相似性、基于深度学习、基于不平衡数据的3类链路预测算法, 在4个不同的时序网络中进行实证对比研究.结果表明, 本文提出的链路预测算法预测精度较高, 算法更加稳定且具有普适性.
  • 海洋蕴藏着丰富的矿物资源、油气资源、生物资源、化学资源、动力资源、海水资源、空间资源和旅游资源, 是社会经济发展的重要物质基础. 建设海洋强国, 开发、利用和保护海洋, 必须首先从认识并掌握海洋自身具有的环境特点和变化规律开始. 经过长期的建设与发展, 大量的海洋环境监测系统得到了应用, 由此带来的问题是: 各监测系统缺乏统一调度与管理, 各监测系统获得的数据没有进行关联分析, 导致重复投资、监测能力低下等问题[1-3]. 这就需要开展海洋环境监测能力的顶层设计, 优化组合各个监测系统的设备, 形成结构优化、能力更优的海洋环境监测系统. 解决该问题的一般思路是: 建立各个监测设备的仿真模型, 构建多个海洋环境监测仿真系统. 通过对这些仿真系统进行实验分析, 形成顶层设计、结构优化和能力优化的方案. 然后依据这些方案, 调整真实的海洋环境监测系统.

    上述方法需要建立大量的各类传感器设备模型、网络信息传输模型和数据处理模型. 对于海洋环境监测系统这类复杂大系统来说, 建模工作量非常巨大, 由此投入的人力和物力都非常高, 且对人员综合素质要求较高. 更重要的是, 如果模型可信度不高, 仿真运行偏差较大, 则最终得到的方案也没有太大意义.

    2004年, 王飞跃提出了基于人工系统的平行系统和计算实验概念(Artificial society, computational experiments, parallel execution, ACP)[4-6], 基于ACP的平行系统方法不断在实践中得以完善, 在交通[7-9]、网络[10-12]、物流[13]、农业[14]、医学[15-16]、健康、经济等领域得到了广泛应用, 并取得了显著的效果. 当前, 海洋环境研究已经从短暂考察逐步过渡到长期观测, 综合性、全天候、长期连续实时观测海洋环境及其相互关系已经成为新的科学目标. 基于平行系统理论方法, 软硬一体化设备、“云加端”的服务模式、将网络作为促进信息更高效流通及服务承载的平台载体, 可有效解决海洋环境监测面临的复杂性问题. 目前平行系统方法已经在海洋环境监测领域[17]得到了初步应用. 本文采用平行系统方法对当前正在建设的蓝海信息网络这一复杂系统进行分析研究.

    针对海洋环境立体监测体系的诸多问题和不足, 综合考虑体系建设的复杂性本文在蓝海信息网络中采用平行系统方法进行体系建模, 构建完备的海洋环境监测平行系统, 希望通过平行执行为海洋环境监测的高效、智能管理与运营提供保障. 本文结构安排如下: 第1节介绍海洋环境平行监测体系框架; 第2节详细介绍蓝海信息网络以及基于蓝海信息网络的海洋环境平行监测体系架构; 第3节对海洋环境监测设备建模; 第4节和第5节分别介绍了卫星遥感反演模型和海洋数值模拟同化模型; 第6节介绍海洋环境多源信息融合方法; 第7节介绍了海洋环境稀疏数据插值方法; 最后给出了本文的结论和展望.

    平行系统理论的基本思路是将人工系统作为建模工具, 以数据为驱动, 采用计算实验方法进行分析评估, 完成人工虚拟系统与现实系统之间的交互, 并对二者之间行为进行对比和分析, 实现对各自未来状况的“借鉴”和“预估”, 相应地调节各自的管理与控制方式, 通过实时在线的模型预测控制方法达到方案优化的目的[17-19]. 平时以万变应不变, 在人工系统中做计算实验, 自己生成数据、自我学习、自我对抗, 获取经验和知识, 把小数据“炒”成大数据, 再从大数据凝练出精准的“小知识”, 一旦出现问题就是以不变应万变, 按精准知识行事. 海洋环境平行监测体系框架如图1所示.

    图 1  海洋环境平行监测体系框架
    Fig. 1  The framework of marine environmental parallel monitoring system

    构建海洋环境平行监测体系的理论基础和方法指导是基于社会物理信息系统(Cyber-Physical-Social systems)及平行系统. 如图1中, 海洋环境人工监测体系与海洋环境真实监测体系之间的交互运行, 构成完整的海洋环境平行监测体系. 海洋环境平行监测体系的运行实际上是人工海洋环境监测体系和实际海洋环境监测体系同时运行. 这一运行过程是建立问题、分析判断问题、获得运行结果的过程[20-22].

    蓝海信息网络是基于新一代信息系统技术体制, 综合集成“感、传、用、管”能力, 实现“天、空、岸、海、潜”一体化的海洋网络信息体系. 该网络着力打造军民融合、开放共享、自主可控的海洋信息基础设施, 逐步形成覆盖我国管辖海域、海上丝绸之路、南北两极与海上战略要道, 乃至全球大洋的“全时域态势感知、全海域网络覆盖、全方位信息服务、全业务综合应用、全体系安全管控”的海洋综合信息系统, 其系统架构如图2所示.

    图 2  海洋环境平行监测体系框架
    Fig. 2  The architecture of marine environmental parallel monitoring system

    为顺利推进蓝海信息网络建设, 中电科集团自筹资金, 开展了蓝海信息网络示范系统建设, 在海南陵水至西沙永兴岛的海上航道周边开展示范系统的部署, 设计海洋信息化体系基本架构和技术体制, 开发关键技术装备, 提供海洋信息服务, 重点验证海域应用、系统集成、运营服务能力, 为海洋环境监测体系建设奠定基础, 示范系统组成如图3所示.

    图 3  蓝海信息网络示范系统示意图
    Fig. 3  The demonstration system of the Lanhai information network

    蓝海信息网络示范系统包括天基海洋观测、航空海洋观测、岸岛海洋观测、海基海洋观测、水下海洋观测等分系统, 通过卫星通信、散射通信、短波、北斗等手段, 将观测数据传输汇集至海洋环境信息处理中心, 由中心进行数据综合处理、应用, 并实现对各平台各传感器的综合管控. 本文采用平行系统方法构建基于蓝海信息网络的海洋环境平行监测体系, 如图4所示.

    图 4  基于蓝海信息网络的海洋环境平行监测体系框架
    Fig. 4  Framework of parallel monitoring system for marine environment based on the Lanhai information network

    图4所示, 建立了人工蓝海信息网络后, 通过计算实验及平行执行, 对蓝海信息网络进行评估与优化迭代, 最终实现蓝海信息网络的描述、预测和引导. 人工蓝海信息网络的系统组成如图5所示.

    图 5  人工蓝海信息网络系统组成
    Fig. 5  The system of artificial Lanhai information network

    人工蓝海信息网络需要建立的模型主要是各类监测设备类模型. 从蓝海信息网络中各种类型物理传感器及软件定义传感器的感知量到海洋环境物理特征量, 存在观测数据的反演、数值模拟与同化、定量科学信息提取与融合、稀疏数据差值等海洋环境信息处理方法与模型.

    人工蓝海信息网络中的监测设备包括天基海洋观测、航空海洋观测、岸岛、海基及水下海洋环境监测设备等. 天基卫星海洋环境遥感观测的传感器主要有: 辐射计、散射计、卫星高度计、合成孔径雷达、重力场卫星、磁力场卫星等. 空基海洋观测通常采用固定翼飞机和无人机为平台, 搭载微波和光学遥测设备, 具有分辨率高、机动灵活、探测项目多等特点, 是海洋环境监测的重要观测平台, 能够实时获取大气海洋环境资料[23-25]. 岸岛、海基及水下海洋环境监测采用岸岛平台、海上锚泊浮台、海洋测量船、锚系式浮标、剖面探测式漂流浮标、潜标、无人潜航器、波浪能滑翔器、海底观测网等海上、水下平台, 搭载各类海洋环境监测传感器, 实现对海洋环境的多手段监测. 海洋环境参数常用观测传感器如表1所示.

    表 1  海洋环境监测传感器
    Table 1  Marine environmental monitoring sensor
    观测参数传感器
    温深盐仪CTD可连续测量
    温度抛投式温深仪XBT抛弃式, 不可回收, 测量范围 450 m以浅
    抛弃式XCTD抛弃式, 不可回收
    温深盐仪CTD可连续测量
    盐度抛投式温深盐仪XBT抛弃式, 不可回收, 测量范围 450 m以浅
    抛弃式XCTD抛弃式, 不可回收
    声学多普勒海流计ADCP工作深度 $50\sim 6\;000 $ m
    海流电磁海流计倾斜影响大
    声学多普勒海流计(单点式)可连续测量
    声学测波仪放置于海底, 通过回波信号测量波高
    海浪(波向、波高)雷达测波海杂波反演海面波高
    波浪浮标可连续测量
    漂流浮标需要浮体具有较好的随波性
    潮汐/潮位(水位)声学水位计/超声波验潮计可连续测量
    压力式验潮仪可连续测量
    GPS验潮可连续测量
    重力旋转型重力仪按照设定频率采样
    直线型重力仪按照设定频率采样
    磁力铯光泵磁力仪对铁磁性物质很敏感, 搭载平台必须为无磁性或弱磁性
    回声测深仪可连续测量
    海底地形(水深)多波束测深能一次给出与航线相垂直的平面内的几十个甚至上百个深度
    下载: 导出CSV 
    | 显示表格

    对海洋环境观测传感器进行建模研究. 由于各类传感器的参数存在差异, 这里主要对各类传感器的通用模型进行研究. t时刻海洋环境人工检测系统通用模型可表示为

    $$ F_{t} = \sum\limits_{i}^{}\sum\limits_{j}^{}P_{i}(L,B,H,t,C_{j}) $$ (1)

    其中, $ P_i $为传感器平台类型, $ C_j $为传感器获取参数类型, $ (L,B,H) $为传感器获取参数的空间坐标, t为传感器获取参数的时间. 其中传感器平台、类型、获取参数由表1具体给出.

    卫星空间遥感大大弥补了海洋观测资料的不足(如离散地基台站、离散时间观测). 自20世纪70年代至今, 各类多频段(可见光、红外、微波)多通道的卫星遥感计划提供和积累了海量数据. 近30年来, 我国的风云气象卫星、海洋卫星也逐步与国际卫星遥感一起获取了对海洋观测的大量数据, 取得了可观的成绩. 但遥感观测的数据是复杂海洋电磁散射与电磁热辐射, 并不直接是所需要的各类环境物理参数 (海表温度、盐度、海流、风场等)的定量信息, 无法直接提供海洋参数规律性知识. 卫星数据的反演是从电磁场到地球物理性质的逆运算, 具体是指从卫星原始数据获得定量海洋环境参数的数学物理方法.

    1)微波辐射计反演海表面温度、盐度、海表风速

    微波辐射计的观测能量通过物理辐射传输模型(Radiative transfer model, RTM)得到如下亮温表达式

    $$ T_B = T_{Bu}+\tau [E\times T_S+(1-E)(T_{Bd}+\tau T_{Bc})] $$ (2)

    式(2)中, $ T_{Bu} $为上行大气辐射; $ T_{Bd} $为下行大气辐射; $ \tau $为总路径的透过率. $ E $为海表发射率, $ T_S $为海面温度, $ T_{Bc} $为冷空背景辐射.

    海洋产品反演算法利用RTM模型进行经验回归得到的, 线性经验方程为

    $$ P = \sum\nolimits_{}^{}{c_{i}F_{i}} +c_{10} \quad\quad\quad\quad\quad$$ (3)
    $$ F_{i} = TB_{i}-150,\;\; i\neq7 \quad\quad\quad$$ (4)
    $$ F_{i} = -\ln(290-TB_{i}), \;\; i = 7 $$ (5)

    其中, $ F_{i} $为线性经验方程, $ c_{i} $为线性经验方程的系数.

    2)散射计反演海表面风场

    将散射计后向散射截面测量值转化为海面风矢量场, 根据雷达方程, 后向散射截面计算式为

    $$ \sigma_{0} = \frac{(4\pi)^3R^4P_r}{\lambda^{2}G^2AP_{t}} $$ (6)

    其中, $ R $为目标径向距离, $ P_r $为雷达接收功率, $ P_t $为雷达发射功率, $ \lambda $为雷达波长, $ G $为雷达天线增益.

    海面风场反演的经验模型为

    $$ \sigma_{0} = F(\theta,U_10,\varphi) $$ (7)

    在反演公式中, 标准化雷达后向散射截面是散射计测量的已知数据, 雷达波束与海面垂直方向$ \theta $的夹角也是已知条件. 海面上10 m高的风速$ U_{10} $和风向$ \varphi $是未知变量. 如ERS-1/2散射计反演式为

    $$ \sigma_{0} = b_{0}\left[ {1+b_{3}\frac{(1-{\rm e}^{-2b_{2}}}{(1+{\rm e}^{-2b_{2}}}(2\cos^2\varphi-1)} \right]^{c_{22}} $$ (8)

    式中, 常数由机载散射计的测量和浮标同步数据拟合获得.

    3)卫星高度计反演海流

    在卫星遥感资料中, 可通过海面风场和海面高度场反演估算全球尺度的海表流场. 基于物理海洋学理论, 海表流场($V$)可分解为Ekman流($ {{V}}_{E} $)和地转流($ {{V}}_{g} $)两部分: ${{V}}={{V}} _{E} +{{V}} _{g} $.

    a) Ekman流计算

    由海表面风应力驱动引起的Ekman流, 计算式为

    $$ \tau = [\tau_{x},\tau_{y}] = \rho_{a}C_{D}U_{10}[U_{10},v_{10}] $$ (9)

    其中, $ \rho _a $为空气密度; $ U_{10} $为海面10 m风速大小; $ u_{10} ,v_{10} $分别为纬向、经向的风速大小; $ C_D $为拖曳系数.

    b) 地转流计算

    受地球自转作用引起的地转流体(大气和海洋), 地转速度计算式为

    $$ fv_{s}(x,y) = \frac{1}{\rho}\frac{\vartheta_{p}}{\vartheta_{x}} $$ (10)
    $$ fu_{s}(x,y) = \frac{1}{\rho}\frac{\vartheta_{p}}{\vartheta_{y}} $$ (11)

    其中, $f = 2\Omega\sin \theta$为地转参数; $ \Omega $为地球自转角速度; $ \theta $为纬度. 根据流体静力学平衡

    $$ p = p_a+\int_z^{h_d}{\rho}g{\rm d}z = p_a+{\rho}g(h_d-z) $$ (12)

    可求得海表面地转流速的水平分量为

    $$ v_{s}(x,y) = \frac{g}{f}\frac{\vartheta_{h_{d}}}{\vartheta_{x}} \quad\quad$$ (13)
    $$ u_{s}(x,y) = -\frac{g}{f}\frac{\vartheta_{h_{d}}}{\vartheta_{y}} \quad $$ (14)

    目前, 随着海洋观测技术的高速发展, 人们逐渐有能力获取广阔海面上大量、高分辨率的实时观测数据. 海洋卫星遥感反演技术为海洋研究提供了大量的大气与海洋参数资料, 包括海表面温度、海表面风场、海表面高度、辐射、降雨资料等等. 这些大气参数可作为海洋数值模型的外部强迫场, 海洋参数可作为海洋数值模型的初值场和边界条件.

    日常海洋环境监测与预报任务包含以下过程: 海洋数据的系统收集处理与质量控制、海洋数值模型的确定和调试、海洋数据同化方法的研制、海洋预报统的综合集成、预报及其效果检验, 如图6所示.

    图 6  海洋环境日常监测与预报
    Fig. 6  Daily monitoring and forecasting of the marine environment

    大气和海洋的运动受到流体力学、热力学等物理规律的支配, 可以用方程组的形式定量表达. 在给定边界条件的情况下, 通过数值方法求解, 可以由已知状态预测未来的状态, 这就是数值模拟.

    1)基于HYCOM (Hybrid coordinate oceam model)模型的全球海洋同化技术是在美国迈阿密大学等密度面坐标海洋模型基础上发展起来的, 其优势在于利用三种垂直坐标按照深度的转换, 有助于更好地刻画流场.

    a)水平、垂直分辨率

    设置全球HYCOM模型水平分辨率约为50 km, 垂向采用混合坐标, 有28层, 上面5层采用z坐标, 其他采用等密度面坐标. 垂直混合参数化方案采用K-剖面参数化(K-profile parameterization, KPP)方案.

    b)同化的观测资料

    同化的观测资料包括法国卫星地面接收中心提供的分辨率为1/3°$ \times $1/3°网格的海平面异常(Sea surface height anomaly, SSHa)、卫星遥感海面温度(Sea surface temperature, SST)产品, 以及现场剖面观测资料(CTD、XBT、Argo剖面). 来自ENSEMBLES的EN4综合资料集的现场温度和盐度剖面也将被同化. EN4资料集包括世界海洋数据库WOD05 (World Ocean Database 2005)、全球温盐剖面计划(Global temperature and salinity profile project, GTSSP)、实时地转海洋阵列Argo浮标温盐剖面观测资料、以及北极天气海盆尺度海洋学项目所获取的资料等. 法国卫星地面接收中心提供的卫星观测SSHa数据来自于法国的测高数据用户服务网站. 该数据集是由TOPEX/POSEIDON (T/P)、Jason-1、ERS-2和Envisat, HY-2等多颗卫星的测高资料融合而成的海表面高度度异常产品, 其中已经扣除了多年平均海表面高度, 网格空间分辨率为1/3°$ \times $1/3°, 时间分辨率为7天. 卫星遥感SST数据来自Reynolds SST数据集.

    c)模型同化方法

    海洋观测资料同化方法采用了集合最优插值法(EnOI). 根据EnOI的定义, 样本不随时间移动和变化. 然而, 在某些区域, 尤其是季风区, 静态不随时间变化的样本似乎不能合理反映误差协方差的流依赖性. 因此, 在资料同化系统中, 采用随季节更新的样本(即不同的季节用不同的样本). 背景误差协方差以准高斯相关函数来进行局地化, 水平特征尺度为350 km. 相比传统方法而言, EnOI方法对观测误差和背景场的统计特征进行了加权考虑, 因此称为统计插值法, 其通过简化算法给定最佳线性无偏估计方程中的权矩阵. EnOI方法计算式为

    $$ x_a = x_b+K(Y-H[x_b]) $$ (15)

    式中, $ x_a $, $ x_b $分别为模型的分析场和背景场, $ Y $为观测向量, $ H $为观测算子.

    d)模型输出参数

    模型输出参数包括了逐日的三维海洋温度、盐度、洋流(经向流速、纬向流速)场以及二维的海表面高度, 共5个变量. 资料格式为NetCDF(二进制). 原始资料在等密度坐标上, 被内插到标准垂直平面上.

    2)基于FVCOM模型的区域海洋同化技术

    FVCOM (Finite volume coastal ocean mode)由Chen及其所领导的美国佐治亚大学海洋学院海洋生态动力学实验室开发[26]. 由于FVCOM在近岸岸线模拟上的优势, 采用FVCOM模型来构建区域海洋预报系统.

    a)模型同化数据

    模型运行中同化了海表温度SST数据和表面高度数据(Sea surface height, SSH). 其中SST数据来自多源业务化海洋卫星数据. SSH则是通过处理法国卫星高度计资料数据, 插值到各个非结构网格上, 在计算过程中通过三维变分方法进行同化. 三维变分目标泛函可表示为

    $$ \begin{split} J(x) =\,& J_{b}+J_{c} = \frac{1}{2}(x-x_{b})^{\rm T}B^{-1}(x-x_{b})+\\ &\frac{1}{2}[Y_{o}-H(x)]^{\rm T}(E+F)^{-1}O^{-1}[Y_{o}-H(x)] \end{split} $$ (16)

    式中, $ x $为分析变量, $ x_{b} $为的先验估计, $ { B} $为背景误差协方差矩阵, E为观测误差, F分代表性误差, H为观测算子, $ {{Y}}_{o} $为观测值, 上标−1代表矩阵的逆. 为了简化问题, 通常只考虑观测误差, 将上式进行简化处理得到

    $$ \begin{split} J(x) =\,& \frac{1}{2}(x-x_{b})^{\rm T}B^{-1}(x-x_{b})\,+\\ &\frac{1}{2}[Y_{o}-H(x)]^{\rm T}O^{-1}[Y_{o}-H(x)] \end{split} $$ (17)

    式中, O为观测误差协方差矩阵. 为了求上式的极小值, 一般求解梯度信息, 表达式为

    $$ \nabla J(x) =B^{-1}(x-x_b )-H^{\rm T}(x)O^{-1}[Y_o -H(x)] $$ (18)

    使得梯度信息等于0的变量x, 即为最优化$ x_a $, 采用解析方法难以求得, 多采用数值求解的方法.

    b)模型输出参数

    模型输出参数主要包括海面高度、三维速度、盐度、温度场. 模型输出数据格式为NETCDF格式.

    在多源海洋环境监测手段中, 卫星观测数据、数值模拟数据和气象水文常规观测数据是开展气象水文环境信息融合的主要数据源. 卫星数据能够提供大气和海洋的精细化特征, 数值模拟数据能够得到大气海洋三维分布, 常规观测手段能够提供监测站点周围长时间序列的大气和海洋参数值. 但这些多源数据具有不同的时间、空间分辨率, 具有各自的主要应用对象和局限性. 需要通过数据融合, 对多传感器、多平台的观测数据以数值模拟数据进行综合处理和分析, 突出和强化有用信息, 消除或抑制无关的信息, 弥补单一信息的不足, 提供长期稳定连续可靠的高精度全球范围的观测资料, 改善海上目标识别的影响环境.

    1)多源数据预处理技术

    当前, 海洋水文气象数据获取可采用航空、航船等传统的海洋测量方法, 天基卫星海洋遥感, 全球Argo浮标测量等多种手段. 观测手段的多样性大大提高了海洋水文气象数据的准确性和充足性, 但同时也增加了数据统一处理和使用难度. 因此, 需要研究气象水文多维观测信息的多源、多时相、多尺度等特征; 基于图像分类、空间分布规律等进行海洋环境信息特征提取; 开展卫星观测数据与常规观测数据的数据验证与质量控制, 并进行噪声平滑处理; 针对不同卫星轨道坐标系与全球格网坐标不统一问题, 开展数据规范化处理, 确保数据的一致性.

    2)时空一致性网格化投影变换技术

    当前, 数值模拟大部分都是网格型, 例如GRAPES主要的分辨率是0.5°$ \times $0.5°. 有些数值模型的网格采用莫卡托等投影方式和存在嵌套模型, 而海上观测平台的观测数据多为离散点. 这些数据严重制约了与其他数据的比较以及直观的三维动态展示. 虽然简单线性插值处理等能够将这些数据网格化投影, 但是会带来一定的插值误差和非均一性. 需要考虑气象水文参数特征的空间均一化插值网格投影算法, 保证投影数据的一致性.

    3)多源数据时空无缝集成技术

    目前气象水文数值模式的再分析资料分辨率较低, 难以满足海洋环境精细感知的要求. 而新兴的遥感数据之间因时间、空间分辨率不统一, 并且空间覆盖不完全, 造成海域数据缺失. 因此, 需要通过融合技术把遥感数据与海岸气象站数据结合起来, 形成覆盖全海域的高分辨率数据. 需重点研究岸基气象观测、海岛气象水文观测、浮标站等常规观测资料与卫星遥感监测资料的时空融合技术; 研究卫星监测数据与美国NCEP (National Centers for Environmental Prediction)再分析数据融合方法; 研究不同卫星监测数据与数值模式预报产品的数据融合方法; 针对不同海洋气象水文参数开展融合方法的实验应用, 并进行融合方法的效果评估.

    海洋资料反映了海洋环境要素时间变化和空间分布的重要信息. 由于观测成本、观测手段以及相关方法技术的制约, 现有的海洋观测资料大多稀疏、零散, 难以满足科学研究的需要. 采用有效的算法模型, 对既有的海洋稀疏数据资料进行插值、挖掘和拓展等处理, 是最大限度地利用海洋环境数据信息资源的重要途径, 目前已成为海洋科学研究中的重要基础性工作. 常用的方法有: 遗传优化的分形插值、支持向量机-Kriging插值和信息扩散插值等.

    本文基于平行系统理论方法提出了基于蓝海信息网络的海洋环境平行监测体系, 建立了蓝海信息网络的天基海洋观测系统、航空海洋观测系统、岸岛海洋观测系统、海基海洋观测系统、水下海洋观测系统等功能分系统模型; 构建了卫星遥感信息反演、海洋数值模拟与同化、海洋环境多源信息融合、海洋环境的稀疏数据差值等量化计算模型; 以此为基础, 形成人工蓝海信息网络, 与蓝海信息网络交互形成完备的蓝海信息网络平行系统, 为海洋环境监测的高效、智能管理与运营提供保障. 众所周知, 我国近海和远海的气象资料获取能力有限, 海洋表面的气象观测点严重不足, 锚系浮标观测站点稀疏, 海洋气象预报科技基础能力薄弱, 特别是海洋气象数值预报模式等核心技术不高, 远不能满足海洋航运、海上导航、海上工程、海上牧场、海上旅游等方面的需求, 但随着海洋模式、人工智能和大数据处理等技术的发展, 获得更准确、有效的海洋环境立体监测方案和数据, 完善海洋监测缺失地区的数据服务, 推动海洋环境平行监测体系走向精细化、智能化的有效途径, 具有巨大的研究价值和应用前景.

  • 图  1  链路预测算法总流程

    Fig.  1  The overall flow of the link prediction algorithm

    图  2  CBOW网络结构

    Fig.  2  CBOW network structure

    图  3  PSO中解的表达形式

    Fig.  3  The expression of the solution in PSO

    图  4  Karate网络特征提取

    Fig.  4  Karate network feature extraction

    图  5  四种链路预测特征提取算法时间对比

    Fig.  5  Time comparison of four link prediction feature extraction algorithms

    表  1  本文用到的数据集概况

    Table  1  Overview of the data sets used in this article

    数据集 网络类型 节点数 边数
    Citeseer 著作网络 3 327 4 732
    Cora 著作网络 2 708 5 429
    Pubmed 著作网络 19 717 44 338
    微博关系网络 虚拟社交网络 65 775 266 144
    下载: 导出CSV

    表  2  相似性预测链路算法

    Table  2  Similarity link prediction algorithm

    链路预测算法 算法公式 算法概述
    Common neighbor [3] $S_{ij}=| \Gamma(i)\cap\Gamma(j) | $ 共同邻居节点的个数
    Jaccard$'$s coefficient [24] $S_{ij}=\frac{|\Gamma(i)\cap\Gamma(j)|}{|\Gamma(i)\cup\Gamma(j)|} $ 邻居节点集合的交集与邻居节点集合的并集的比值
    Adamic Adar [25] $S_{ij}=\sum\limits_{x\in\Gamma(i)\cup\Gamma(j)}\frac{1}{\ln k_x} $ 共同邻居节点度的对数的倒数之和
    下载: 导出CSV

    表  3  复杂网络其他特征提取算法

    Table  3  Other feature extraction algorithms for complex networks

    链路预测算法 算法公式 算法概述
    Likelihood supervised machinelearning [7] Similarityindex+ Classical machine learning 以相似性指标为特征, 利用传统机器学习算法进行训练
    RBM-DBN link prediction [8] $F(v)=-\sum\limits_i v_ia_i-\sum\limits_j \ln(1+E^{h_j}) $ 利用受限玻尔兹曼机提取特征, 深度信念网络进行训练
    Convolutional networks [9] $Z=f(X, A)=softmax(\hat{A}ReLu(\hat{A}XW^{(0)}))W $ 利用卷积神经网络对网络提取特征, 卷积层后面连接softmax层进行分类
    下载: 导出CSV

    表  4  链路预测其他处理类别不平衡问题算法

    Table  4  Link prediction other processing category imbalance problem algorithm

    链路预测算法 算法公式 算法概述
    AUC-logistic regression [26] $\varphi_{AUC \text{-}Logistic}=\sum\limits_{(i, j, z)\in T}1(x_i^{\rm{T}}Mx_j-x_i^{\rm{T}}Mx_z)$ 对特征矩阵$M$进行逻辑回归训练, 目标函数是AUC值
    Rank-SVM [27] $\varphi_{SVM}=\sum\limits_{(i, j, z)\in T}\max(0, 1+x_i^{\rm{T}}Mx_z-x_i^{\rm{T}}Mx_j)$ 利用支持向量机学习节点连接概率的大小排序
    Entropy algorithm [28] $\min\limits_M L(M)=\lambda\Omega(M)+\sum\limits_{q\in V}\varphi(S^R(M), R^q) $ 利用交叉熵算法, 使得网络全局交叉熵损失最小化, 处理类别不平衡节点对
    下载: 导出CSV

    表  5  本算法与其他链路预测算法结果对比

    Table  5  Comparison of the algorithm with other link prediction algorithms

    链路预测算法 Citeseer Cora Pubmed Weibo
    AUC $P$ AUC $P$ AUC $P$ AUC $P$
    Common neighbor 0.567 0.632 0.616 0.696 0.561 0.669 0.542 0.615
    Jaccard's 0.568 0.651 0.616 0.694 0.564 0.668 0.540 0.618
    Adamic Adar 0.675 0.690 0.679 0.711 0.584 0.702 0.559 0.621
    Common neighbor 0.656 0.759 0.715 0.784 0.827 0.853 0.687 0.741
    Jaccard's 0.673 0.753 0.524 0.612 0.643 0.781 0.664 0.727
    Adamic Adar 0.789 0.731 0.744 0.829 0.687 0.778 0.765 0.854
    Common neighbor 0.752 0.857 0.711 0.773 0.781 0.829 0.545 0.628
    Jaccard's 0.861 0.934 0.689 0.746 0.718 0.805 0.712 0.802
    Adamic Adar 0.762 0.860 0.797 0.805 0.810 0.865 0.786 0.851
    Word2vec-PSO 0.818 0.872 0.801 0.823 0.867 0.913 0.833 0.875
    下载: 导出CSV
  • [1] Fayyad U. ACM SIGKDD Explorations Newsletter. New York: ACM, 2002
    [2] Albert R, Barabási A L. Statistical mechanics of complex networks. Review of Modern Physics, 2002, 74 (1): 47
    [3] Liben-Nowell D, Kleinberg J. The link prediction problem for social networks. In: Proceedings of the 12th International Conference on Information and Knowledge Management. New Orleans, LA, USA: ACM, 2003. 556-559
    [4] Zhou T, Lv L Y, Zhang Y C. Predicting missing links via local information. The European Physical Journal B, 2009, 71(4): 623-630 doi: 10.1140/epjb/e2009-00335-8
    [5] Keck F, Bouchez A, Franc A, Rimet F. Linking phylogenetic similarity and pollution sensitivity to develop ecological assessment methods: A test with river diatoms. Journal of Applied Ecology, 2016, 53(3): 856-864 doi: 10.1111/1365-2664.12624
    [6] Benchettara N, Kanawati R, Rouveirol C. Supervised machine learning applied to link prediction in bipartite social networks. In: Proceedings of the 2010 International Conference on Advances in Social Networks Analysis and Mining. Odense, Denmark: IEEE, 2010. 326-330
    [7] Popescul R, Ungar L H. Statistical relational learning for link prediction. In: Proceedings of the 2003 Workshop on Learning Statistical Models from Relational Data. IJCAI, 2003.
    [8] Liu F, Liu B Q, Sun C J, Liu M, Wang X L. Deep learning approaches for link prediction in social network services. International Conference on Neural Information Processing. Berlin Heidelberg: Springer, 2013. 425-432
    [9] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18 (7): 1527-1554 doi: 10.1162/neco.2006.18.7.1527
    [10] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks. arXiv: 1609.02907, 2016
    [11] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv: 1409.1556, 2014
    [12] Lowrance C J, Lauf A P, Kantardzic M. A fuzzy-based machine learning model for robot prediction of link quality. In: Proceedings of the 2016 IEEE Symposium Series on Computational Intelligence. Athens, Greece: IEEE, 2017. 1-8
    [13] Perozzi B, Al-Rfou R, Skiena S. Deepwalk: Online learning of social representations. In: Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2014: 701-710
    [14] Mikolov T, Chen K, Corrado G, Dean J. Efficient estimation of word representations in vector space. arXiv: 1301.3781, 2013
    [15] Hochreiter S, and Schmidhuber J. Long short-term memory. Neural Computation, 1997(9): 1735-1780 http://cn.bing.com/academic/profile?id=90ef9e6cc88d24a0a6ea3a10a47b9214&encoded=0&v=paper_preview&mkt=zh-cn
    [16] Barabási A L, Albert R, Jeong H. Scale-free characteristics of random networks: The topology of the world-wide web. Physica A: Statistical Mechanics and Its Applications, 2000, 281(1-4): 69-77 doi: 10.1016/S0378-4371(00)00018-2
    [17] Vermeulen T, Huffman E H. Ion exchange column performance – hydrogen cycle rates in nonaqueous solvents. Industrial & Engineering Chemistry, 1953, 45(8): 1658-1664 doi: 10.1021/ie50524a024
    [18] Chawla N V, Bowyer K W, Hall L O, Kegelmeyer W P. SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 2002, 16: 321-357 doi: 10.1613/jair.953
    [19] Kennedy J, Eberhart R. Particle swarm optimization. In: Proceedings of the 2002 IEEE International Conference on Neural Networks. Perth, WA, Australia: IEEE, 2002. 1942-1948
    [20] Golicher D, Ford A, Cayuela L, Newton A. Pseudo-absences, pseudo-models and pseudo-niches: Pitfalls of model selection based on the area under the curve. International Journal of Geographical Information Science, 2012, 26(11): 2049-2063 doi: 10.1080/13658816.2012.719626
    [21] Fiala D. Mining citation information from CiteSeer data. Scientometrics, 2011, 86(3): 553-562 doi: 10.1007/s11192-010-0326-1
    [22] Lunin V V, Dobrovetsky E, Khutoreskaya G, Zhang R G, Joachimiak A, Doyle D A, et al. Crystal structure of the CorA Mg$^{2+}$ transporter. Nature, 2006, 440(7085): 833-837 doi: 10.1038/nature04642
    [23] Falk E, Shah P K, Fuster V. Coronary plaque disruption. Circulation, 1995, 92(3): 657-671 doi: 10.1161/01.CIR.92.3.657
    [24] Jaccard P. Etude comparative de la distribution florale dans une portion des Alpes et des Jura. Bulletin del la Societe Vaudoise des Sciences Naturelles, 1901, 37(142): 547-579 http://cn.bing.com/academic/profile?id=673152eb1f4946650883c42963fac7cf&encoded=0&v=paper_preview&mkt=zh-cn
    [25] Adamic L A, Adar E. Friends and neighbors on the Web. Social Networks, 2003, 25 (3): 211-230 doi: 10.1016/S0378-8733(03)00009-1
    [26] Menon A K, Elkan C. Link prediction via matrix factorization. In: Proceedings of the 2011 European Conference on Machine Learning and Knowledge Discovery in Databases. Berlin, Heidelberg: Springer-Verlag, 2011. 437-452
    [27] Yazdani M, Collobert R, Popescubelis A. Learning to rank on network data. International Journal of Information Management, 2013, 6(3): 187-188 http://cn.bing.com/academic/profile?id=f734e58e43982e03885f90a0f592d20f&encoded=0&v=paper_preview&mkt=zh-cn
    [28] Li B P, Chaudhuri S, Tewari A. Handling class imbalance in link prediction using learning to rank techniques. arXiv: 1511.04383, 2016
  • 期刊类型引用(6)

    1. 陈中林,王宝珠,司慧民,郭志涛. 海洋环境多参数在线监测系统设计与实现. 自动化仪表. 2023(02): 75-79 . 百度学术
    2. 彭心悦. 水下声学传感器的网络架构研究. 电声技术. 2023(05): 29-33 . 百度学术
    3. 温圣军,韩春晓,袁刚,丰苏. 主动式通信网络性能自动监测方法. 自动化技术与应用. 2022(10): 142-145 . 百度学术
    4. 王永皎,王冬海,张博,商志刚,周镇宇. 海洋网络信息体系的基础设施研究. 无线电通信技术. 2021(04): 439-443 . 百度学术
    5. 庞雪琴. 计量认证档案的管理与共享运用研究. 质量与市场. 2021(17): 108-110 . 百度学术
    6. 李倩,刘佳硕. 海洋环境监测与海洋环境管理研究. 黑龙江环境通报. 2020(02): 62-63 . 百度学术

    其他类型引用(5)

  • 加载中
图(5) / 表(5)
计量
  • 文章访问数:  1267
  • HTML全文浏览量:  163
  • PDF下载量:  160
  • 被引次数: 11
出版历程
  • 收稿日期:  2018-04-02
  • 录用日期:  2018-09-06
  • 刊出日期:  2020-08-26

目录

/

返回文章
返回