A Synonym Mining Algorithm Based on Pair-wise Character Embedding andNoisy Robust Learning
-
摘要: 同义词挖掘是自然语言处理中一项重要任务. 为了构建大规模训练语料, 现有研究利用远程监督、点击图筛选等方式抽取同义词种子, 而这几种方式都不可避免地引入了噪声标签, 从而影响高质量同义词挖掘模型的训练. 此外, 由于大量实体词所具有的少样本特性、领域分布差异性和预训练词向量训练目标与同义词挖掘任务的不一致性, 在同义词挖掘任务中, 词级别的预训练词向量很难产生高质量的实体语义表示. 为解决这两个问题, 提出了一种利用成对字向量和噪声鲁棒学习框架的同义词挖掘模型. 模型利用预训练的成对字向量增强实体语义表示, 并利用自动标注的噪声标签通过交替优化的方式, 估计真实标签的分布并产生伪标签, 希望通过这些改进提升模型的表示能力和鲁棒性. 最后, 使用WordNet分析和过滤带噪声数据集, 并在不同规模、不同领域的同义词数据集上进行了实验验证. 实验结果和分析表明, 该同义词挖掘模型在各种数据分布和噪声比例下, 与有竞争力的基准方法相比, 均提升了同义词判别和同义词集合生成的效果.Abstract: Synonym mining is an important task in natural language processing. In order to construct large-scale training corpus, existing studies extract synonym seeds using distant supervision and click graph filtering, which inevitably introduce noisy labels, thus affecting the training of high-quality synonym mining models. In addition, due to the few-shot and domain-distribution-shift property of most entity words, and the inconsistency between the training objective of the pre-trained word embeddings and the synonym mining task, it is difficult for the pre-trained word embeddings in the synonym mining task to produce high-quality entity semantic representations. To address these two issues, this paper proposes a synonym mining model that utilizes pair-wise character embeddings and a noise robust learning framework. The model uses pre-trained pair-wise character embeddings to enhance the entity semantic representations, estimate true label distribution and generate pseudo-labels through a joint optimization process. We want to improve the representation ability and robustness of the model through these improvements. Finally, we use WordNet to analyze and filter noisy datasets and conduct the experiments on synonym datasets of different sizes and domains. The experimental results show that the proposed synonym mining model improves the synonym set-instance classification and set generation performances compared to competitive benchmark methods under different data distribution and noise ratios.
-
自动化将人从单调而繁重的重复性工作中解放出来, 进而使人更多地投入到创造性的工作中, 极大地拓展了人认知和改造世界的范畴.当今世界, 以自动控制和信息处理为核心的自动化技术已经成为推动生产力发展、改善人类生活以及促进社会前进的动力之一, 因而自动化科学也成为衡量一个国家科技发展水平和综合国力的重要标准之一.
自动化是一门涉及学科多且应用广泛的综合学科, 在我国的研究生培养体系中, 自动化对应的一级学科“控制科学与工程”下属有五个二级学科: “控制理论与控制工程”、“检测技术与自动装置”、“系统工程”、“模式识别与智能系统”、“导航、制导与控制”.国家自然科学基金(简称:科学基金)是国家支持自动化领域研究的主要渠道之一, 依靠科学基金的资助, 我国在自动化学科方面取得了长足的进步, 在计算智能、无人系统技术、人工智能等新兴方向上有了重要的进展[1].本文以2014-2018年科学基金对信息科学部自动化学科中的面上项目、青年科学基金项目、地区科学基金项目、重点项目和海外及港澳学者合作研究项目的资助情况为依据[2], 对近年国内自动化领域的主要研究成果和未来发展趋势进行综述.
1. 我国自动化学科研究现状
科学基金为中国在自动化领域的快速进步做出了重要贡献, 科学基金发挥的作用是中国自动化领域科技进步的关键因素之一, 它推动了中国和国际科学界建立重要联系.科学基金通过资助项目、促进学科发展, 发挥了提高中国基础研究数量和质量的先锋作用[3].
“自动化”是科学基金项目一级申请代码(F03)领域, 下分十个二级领域:控制理论与技术(F0301)、控制系统(F0302)、系统建模理论与仿真技术(F0303)、系统工程理论与技术(F0304)、生物系统分析与调控(F0305)、检测技术与装置(F0306)、导航、制导与控制(F0307)、智能制造自动化系统理论与技术(F0308)、机器人学与机器人技术(F0309)、人工智能驱动的自动化(F0310).本文借助国家自然科学基金委员会网站(http://www.nsfc.gov.cn/)的项目查询与统计功能以及资助项目统计, 搜集自动化下属十个二级领域的面上项目、青年科学基金项目、地区科学基金项目、重点项目和海外及港澳学者合作研究项目的关键词、申请代码、资助数量、资助金额等信息[4].经统计, 2014-2018年科学基金在自动化领域对上述五个项目累计资助项目4 971项, 累计资助金额23.5407亿元, 下面分别对五个项目的历年资助情况进行简要介绍.
1.1 面上项目
面上项目是科学基金的主要资助工具. 表 1为2014-2018年科学基金对自动化领域面上项目的资助情况, 图 1为面上项目资助数量和资助金额的变化曲线.由图 1可知, 面上资助数量逐年增加, 2018年增加尤为明显, 资助金额2014之后略有下降, 但2018年资助金额有大幅提高. 2014-2017年自动化领域的资助金额占学部和全委的比例基本不变, 但是2018年资助比例大幅提高.除2014年外, 自动化领域面上项目的资助率, 无论是项目数量还是项目金额, 基本保持平稳.由于2018年自动化领域面上项目申请数量大幅提高, 导致其资助率略有下降, 但是资助项目数量和金额都有大幅提高.
表 1 面上项目资助情况Table 1 General Project Funding年份 项目数量 金额(万元) 自动化领域资助金额占比 自动化领域资助率 占学部比例 占全委比例 项数 金额 2018 632 37 571.00 31.30 % 3.37 % 17.36 % 15.75 % 2017 416 24 499.00 21.51 % 2.29 % 21.36 % 18.89 % 2016 405 23 341.00 21.49 % 2.29 % 23.17 % 19.79 % 2015 387 23 311.00 21.39 % 2.28 % 21.55 % 18.49 % 2014 340 27 239.00 21.41 % 2.28 % 22.94 % 2.80 % 1.2 青年科学基金项目
人才培养是科学基金的核心人物之一, 而青年科学基金为研究人员的职业发展提供了重要支撑. 表 2为2014-2018年科学基金对自动化领域青年科学基金项目的资助情况, 图 2为青年科学基金项目资助数量和资助金额的变化曲线.由图 2可知, 青年科学基金资助数量在2014-2017有小范围波动, 在2018年大幅提高, 资助金额也是相同的趋势.自动化领域的资助金额占学部和全委的比例在2018年也大幅度提高.青年科学基金项目的资助率, 无论是项目数量还是项目金额, 基本保持平稳.
表 2 青年科学基金资助情况Table 2 Funding of the Youth Science Foundation Project年份 项目数量 金额(万元) 资助金额比例 自动化学科资助率 信息部占全委比例 自动化占学部比例 自动化占全委比例 项数 金额 2018 647 15 879.00 12.46 % 30.50 % 3.80 % 24.53 % 24.84 % 2017 447 10 799.00 12.33 % 21.87 % 2.70 % 24.36 % 24.82 % 2016 421 8 447.00 12.31 % 22.01 % 2.71 % 23.64 % 21.80 % 2015 424 8 711.00 12.41 % 21.98 % 2.73 % 24.21 % 21.94 % 2014 430 10 650.00 12.15 % 21.96 % 2.67 % 24.21 % 22.48 % 1.3 地区科学基金项目
科学基金资助经费的地区分布反映了研究机构的集中程度, 因此基金委设立了地区科学基金来提升欠发达地区的科研能力. 表 3为2014-2018年科学基金对自动化领域地区科学基金项目的资助情况, 图 3为地区科学基金项目资助数量和资助金额的变化曲线.由图 3可知, 地区科学基金资助数量在2014-2017年有小幅波动, 资助金额逐年减少, 但是2018年资助数量和资助金额大大提高.由表 3可知, 自动化领域地区科学基金的资助金额占学部和全委的比例在2018年最高, 自动化领域地区科学基金项目的资助率, 无论是项目数量还是项目金额, 基本呈下降趋势.
表 3 地区科学基金资助情况Table 3 Subsidies from regional science funds年份 项目数量 金额(万元) 资助金额比例 自动化学科资助率 信息部占全委比例 自动化占学部比例 自动化占全委比例 项数 金额 2018 83 3 142.00 7.72 % 36.88 % 2.85 % 14.59 % 13.40 % 2017 49 1 870.00 7.56 % 22.58 % 1.71 % 17.63 % 16.06 % 2016 49 1 903.00 7.59 % 22.98 % 1.74 % 19.60 % 18.67 % 2015 56 2 122.00 7.93 % 24.42 % 1.94 % 21.62 % 19.24 % 2014 53 2 391.00 7.95 % 23.01 % 1.83 % 21.63 % 19.07 % 1.4 重点项目
重点项目主要资助大额项目, 这些项目由基金委确定主题, 再通过竞争进行资助, 因此这类项目对自动化学科的发展非常重要. 表 4为2014-2018年科学基金对自动化领域重点项目的资助情况, 图 4为重点项目资助数量和资助金额的变化曲线.由图 4可知, 2014-2017年重点项目资助数量历年差别不大, 最多相差3个项目, 但是资助金额逐年下降. 2018年资助数量和资助金额大幅提高.由表 4可知, 自动化领域重点项目的资助金额占学部和全委的比例在2014-2016年基本不变. 2017年资助金额占学部和全委的比例有明显下降, 资助项目数量也略有减少, 但是资助率却有大幅提高, 说明项目申请数量较以前大幅较少. 2018年重点项目的资助率, 无论是项目数量还是项目金额, 都大幅提高, 但是项目资助率却大幅下降, 说明项目申请数量有大幅提高.
表 4 重点项目资助情况Table 4 Funding of key projects年份 项目数量 金额(万元) 资助金额比例 自动化学科资助率 信息部占全委比例 自动化占学部比例 自动化占全委比例 项数 金额 2018 32 9 120.00 13.63 % 32.57 % 4.44 % 25.20 % 23.66 % 2017 18 5 160.00 12.83 % 20.24 % 2.60 % 37.50 % 35.82 % 2016 21 5 480.00 13.12 % 24.36 % 3.20 % 30.43 % 25.85 % 2015 21 6 080.00 14.06 % 24.22 % 3.41 % 33.87 % 30.79 % 2014 19 6 800.00 13.68 % 24.29 % 3.32 % 24.36 % 24.57 % 1.5 海外及港澳学者合作研究项目
表 5为2014-2018年科学基金对自动化领域海外及港澳学者合作研究项目的资助情况, 图 5为海外及港澳学者合作研究项目资助数量和资助金额的变化曲线.由图 5可知, 海外及港澳学者合作研究项目资助数量波动较大.由表 5可知, 自动化领域海外及港澳学者合作研究项目的资助金额占学部和全委的比例波动较大, 没有明显的变化趋势, 海外及港澳学者合作研究项目的资助率, 无论是项目数量还是项目金额, 呈逐年递减的趋势.
表 5 海外及港澳学者合作研究项目资助情况Table 5 Overseas and Hong Kong-Macau scholar cooperation research projects funding年份 项目数量 金额(万元) 资助金额比例 自动化学科资助率 信息部占全委比例 自动化占学部比例 自动化占全委比例 项数 金额 2018 3 54.00 19.67 % 5.08 % 1.00 % 13.04 % 5.08 % 2017 3 54.00 20.00 % 4.41 % 0.88 % 17.65 % 5.66 % 2016 6 432.00 17.78 % 42.86 % 7.62 % 28.57 % 32.00 % 2015 4 72.00 16.46 % 7.69 % 1.27 % 36.36 % 11.19 % 2014 5 280.00 15.66 % 26.92 % 4.22 % 35.71 % 43.75 % 1.6 国内自动化领域研究现状
表 6以科学基金对自动化领域重大研究计划、重大项目、国家杰出青年科学基金、重点项目四个方面的资助情况为依据, 统计了上述四类项目在自动化各二级领域项目资助情况.由表 6可以看出科学基金对自动化领域的项目资助中, 对控制理论与技术(F0301)领域资助项目最多、资助比例最大; 对系统工程理论与技术(F0304)、检测技术与装置(F0306)、机器人学与机器人技术(F0309)领域资助项目数量呈逐年增多的趋势; 其余领域的资助情况基本保持平稳.
表 6 2014-2018年自动化学科二级领域项目资助情况Table 6 Subsidies for automation subject secondary field projects in 2014-2018二级领域年份 F03 F0301 F0302 F0303 F0304 F0305 F0306 F0307 F0308 F0309 F0310 2018 0 12 0 0 5 0 2 3 4 5 7 2017 1 21 7 1 4 0 15 1 0 2 0 2016 0 13 5 2 2 2 11 4 0 0 0 2015 2 12 10 2 2 2 4 1 2 2 0 2014 7 13 3 1 2 0 3 3 0 2 0 (包括重大研究计划、重大项目、国家杰出青年科学基金、重点项目四个方面的资助情况) 自动化学科经过几十年的发展, 基础理论已经发展成熟, 广泛应用到工业、农业、军事、交通运输、商业、医疗等方面.过去的几年里, 在科学基金的大力资助下, 自动化学科在诸多方面取得了一些重要的进步.在学科或交叉学科研究中, 将自下而上的资助与基金委及专家遴选的优先发展需求相结合, 使得科学基金资助的许多领域后来成为国家优先发展领域.
《自动化学报》是国内自动化领域最具影响力学术期刊, 每年都会评选年度优秀论文, 获评论文均为创新性强, 学术水平高, 对推动自动化领域发展有较大影响的理论性论文或对解决比较重要应用问题有较大价值的应用型论文, 获奖论文也反映了我国学者对自动化领域的研究方向和研究重点.参考2014-2017年自动化学科二级领域的获资助情况, 以及《自动化学报》公布的近几年年度优秀论文, 按照二级学科分类, 将国内自动化领域研究现状归纳如下.
1) 控制理论与工程.近几年, 无论是在经典控制理论, 还是在智能控制、平行控制、机器人系统、系统仿真等方面, 我国都取得了重要进展.在经典控制理论方面, 我国学者首次对二阶非线性不确定系统具体给出了PID控制器参数设计的选取范围, 从理论上证明了相应闭环控制系统的全局稳定性及跟踪性能的渐进最优性.智能控制主要用于应对高复杂度及不确定性环境, 我国智能控制研究起步较晚, 但是经过科研人员的不懈攻关, 取得了长足进步, 并在桥梁、隧道等大型基础设施建设中得到广泛应用.平行控制与平行管理在理论框架、核心技术、应用示范等方面取得了丰硕的研究成果, 并且已成功应用于应急管理、企业生产管理、交通管理、农业生产管理等领域.机器人技术在现代社会具有广泛应用, 如:工业机器人、服务机器人及特种机器人等.目前, 我国机器人技术不断突破, 取得重大成就, 工程机械行业开始智能化升级, 工业机器人逐渐产业化, 特种机器人品种和应用场景不断增加.仿真科学与技术可以用于武器研究、作战指挥、军事训练等, 因此在国防和军工领域的具有重要应用价值.目前, 仿真科学与技术为我国飞行器设计相关领域做出了重要贡献, 并取得了令世界瞩目的成就.
2) 模式识别与智能系统.我国主要在模式分类和机器学习方面取得重要进展, 在多媒体分析领域, 如:地理、社会事件、描述生成、跨社会等领域取得大量研究成果, 脑机接口技术不断成熟, 研究成果已经开始应用于医疗、娱乐及军事等领域.
3) 系统工程.我国在系统理论与方法、流程工业自动化和智能交通系统都有重要进展.系统理论与方法方面, 我国在复杂网络、多个体系统、系统工程等方向取得诸多成果.流程工业自动化方面, 我国科研学者在石油化工、钢铁、有色冶金等多个领域获得重大突破.智能交通系统方面, 无论是轨道交通、地面公共交通, 还是城市停车、交通流理论, 抑或交通信号控制、交通规划与设计、交通大数据等方向, 我国取得了一批国际领先的研究成果, 达到了世界先进研究水平.
4) 导航、制导与控制.随着我国定位导航技术不断成熟, 复杂环境中的航空器/航天器控制逐渐成为了科研的重心.航空器/航天器系统具有强非线性、大不确定性、参数快速变化、强耦合等特点, 我国正在分析和探讨将智能控制方法应用于航空器/航天器, 进而推进我国航空航天事业进入智能自主时代.
5) 检测技术与自动化装置.检测技术与自动化装置方面, 目前在动态系统故障诊断与容错控制和分布式能源并网等方面均取得了重要进展.对于动态系统故障诊断与容错控制, 我国学者对微小故障诊断、间歇故障诊断、闭环系统的故障诊断等进行了大量研究, 并且取得了突破性成果.对于分布式能源并网, 在国家的大力支持下, 在电力公司、高校、研究机构和企业的广泛合作下, 微网体系、能源互联网及储能领域也取得一些进展.
交叉学科研究非常重要, 因为新的领域和学科往往诞生在已有学科的边界.自动化学科除了在以上传统方向上有了重要发展之外, 还在交叉学科和新兴应用方面具有旺盛的生命力, 科学基金已成功资助了大量的交叉学科研究, 有下面几点值得关注.
1) 社会计算.广义而言, 社会计算是面向社会科学的计算理论和方法, 狭义而言, 则是面向社会活动、社会过程、社会组织及其作用和效应的计算理论和方法.近年来我国对社会计算的研究成果丰硕, 在社会组织发现, 社会媒体分析, 以及社会计算等方面展开了广泛而深入的研究[5].
2) 信息物理融合系统.信息物理融合系统是一项革命性的技术, 其整合了信息系统和物理系统, 使传统的集中式生产变为分布式协同生产, 对行业之间进行了重组和融合, 已被广泛应用于制造业、智能电网、智能交通、智慧医疗等多个领域[6].
3) 无人机、无人车、无人船领域.无人机、无人车、无人船是国防及军工领域的研究重点, 对维护国家权益、提高军事、民用、国防科技水平具有重要的意义.作为全新的军事装备, 必将催生新的作战方式.目前, 我国对于无人机、无人车、无人船等领域的研究取得了阶段性成果, 并且开始逐渐应用于军事和民用领域[7].
4) 智慧农业等新兴应用方面.智慧农业包括农业信息感知, 农业大数据分析、智能农业决策体系等研究方向, 利用先进的信息技术和机器人技术, 实现智能化的完成播种、施肥、灌溉、除虫和采摘等任务, 既提高了生产效率, 又节约了自然资源.
2. 与国际先进水平比较
科学基金在我国自动化学科的国际化方面扮演着重要角色.在科学基金和其他渠道的资助下, 我国已经成为仅次于美国的第二科学论文大国, 而且科学基金资助发表的论文质量要高于中国的平均水平, 这显示科学基金在提升中国论文质量方面发挥了重要作用.
科学基金资助自由选题研究, 意味着它常常为一些新领域最早提供资助, 因此它也引领着自动化学科的发展.虽然我国在自动化学科的个别领域已经达到或者引领世界先进水平, 但是总体上和世界先进水平还有较大差距.由于2018年部分统计数据未公布, 本文总结了近2014-2017年各国家对自动化学科的研究成果贡献量, 如图 6-9所示.
从图 6-9可以看出, 中国和美国是对自动化领域贡献量最多的两个国家, 并且常年保持领先.英国、德国、澳大利亚等国家一直在追赶中、美两国, 贡献量逐年上升, 尤其是英国, 在2017年的贡献量几乎与美国持平.
收集近几年的关键词热词, 根据它们的共现矩阵生成关键词图谱, 如图 10-13所示.
由近几年的热点关键词可以看出, 我国学者在自动化领域的研究既有非常复杂和细化的研究对象, 如: muti-agent systems、nonlinear systems; 同时, 也有越来越实际的应用, 如: smart grid、hyperspectral image、classification.
下面, 以控制科学与工程的二级学科作为分类依据, 分别对自动化领域国内外科研水平进行对比概述.
1) 在控制理论与工程方面, 我国的控制学者已在国际控制理论研究中占据了重要位置.不过, 在将控制理论应用于重大实际需求、多学科交叉领域研究以及科研创新等方面, 我国学者与国外同行相比仍有较大差距.智能控制领域, 我国在部分研究方向已达到国际领先, 如电力系统非线性控制和鲁棒控制, 国内研究水平无论在理论上还是工业应用上都属于国际先进水平; 但整体上看, 智能控制理论多由国外学者提出, 国内研究主要集中在其工程应用上.平行控制由我国学者率先提出, 因此一直在保持该领域的领先地位, 国外也逐渐开始对平行控制展开研究, 目前还较为初步和分散[8].我国机器人研究内容基本与国外相同, 主要在隧道、桥梁等大型基础设施的建设方面具有优势, 但无论是产业结构、产业规模、应用领域还是科研水平, 都与国外存在显著差异, 在高端应用领域, 国外机器人占据着绝对优势.系统仿真领域, 我国在某些方面已处于国际领先地位, 如飞行器设计仿真、汽车新能源动力系统建模和状态估计等; 但是在工程应用领域方面仍落后于国外, 尤其是在制造领域的应用.
2) 在模式识别与智能系统方面, 国内学者在低秩学习、分类器集成、多示例多标签学习等处于国际前沿水平, 但在深度学习应用方面仍处于跟跑阶段, 缺少开拓性工作.在脑机接口理论研究方面, 国内外旗鼓相当.但在脑机接口应用方面, 无论是神经科学家数量, 还是传感器设备、应用领域, 国外均具有较大优势.生物信息学方面, 我国已经开始在基因组学、合成生物学、中医药系统生物学与网络药理学等领域取得国际领先的成果, 但是总体水平较国际先进水平仍有滞后[9].
3) 在系统工程方面, 复杂网络的研究工作一直保持稳步上升, 但主要成果多为国外研究成果的推广、延伸与应用, 缺少创新性理论成果.流程工业自动化方面, 我国原创性成果逐渐增多, 并且已经取得部分国际领先的成果, 如工艺过程模型和先进控制、生产优化、企业生产经营决策支持等方面, 但在产学研合作方面, 仍需向国外同行学习.智能交通方面, 虽然我国对该领域的研究起步较晚, 但经过近几年的持续攻关, 理论研究和应用都取得了突破性的进展, 贡献了大量国际领先的研究成果[10].
4) 在导航、制导与控制方面, 我国已经取得了极大进展.在工程实践方面, 自抗扰控制和全系数自适应控制这两类我国科学家原创的控制方法在航天或航空任务中得到广泛应用.在高超声速飞行器领域, 虽然形成了非常丰富的理论研究成果, 但在试验次数方面, 与美国相比仍有较大差距.总之, 这些先进控制方法的应用广度和应用深度上, 还有待提高.
5) 在检测技术与自动化装置方面, 我国在动态系统的容错控制和智能电网的研究方面有了显著的进展, 已经处于国际领先水平, 但仍有许多问题需要解决, 如动态系统早期微小故障检测、动态系统的预测与维护中的多目标函数优化以及将火力发电厂的控制融入智能电网等问题.
3. 发展趋势与展望
自动化学科未来的研究重点, 一方面要在已有的研究方向持续推进, 另一方面要重点关注交叉学科的兴起, 以及不断涌现的创新性应用.
生物信息学属于典型的交叉学科, 我国在该领域已经进入国际前沿行列, 伴随着相关学科的发展, 我国在生物信息学领域的研究和应用必将取得更多国际领先的成果.
人工智能是当前的热门研究领域, 研究重点是人类认知行为的信息处理机制, 具有认知功能的新型计算架构, 自主运动体的高效感知与增强智能, 复杂任务规划与推理决策等方面的基础理论和关键技术.该领域的突破与进展将为社会带来重大变革, 推动人类社会进入智能时代, 因此该领域也是各国互相赶超的重点方向.
智能机器人能够极大地提高工作效率, 为人类生产生活带来极大的便利, 我国应抓紧制定符合智能机器人发展路线图, 指明智能机器人研究方向、发展目标, 积极推进核心技术的研发、机器人产业化体系的建立与更加广泛的行业应用.
复杂系统的研究对象往往是国家重大战略需求的相关领域, 而平行控制与平行管理方法对复杂系统行为分析和管控问题十分有效.为保持我国在平行控制与平行管理研究领域的领先优势, 应继续提炼复杂系统的科学问题, 加强基础理论研究, 解决复杂系统中的科学问题; 在此基础上, 不断扩大应用行业和应用领域, 逐渐形成全行业规模化应用.
流程工业发展趋势是在两化深度融合基础上实现制造过程智能化和绿色化.以人工智能驱动的自动化为主要内容, 借助云计算、大数据、物联网等技术, 推动全流程精准建模和分析, 打造贯穿全流程生产、全供应链运营、全生命周期管控的一体化控制决策平台, 进而提升生产效率, 提高企业经济效益和社会效益, 最终实现流程工业升级转型.
信息物理融合系统具有重要的战略地位, 正在我们生活中扮演越来越重要的角色.今后的研究重点是进一步完善信息物理融合系统理论体系, 开展相关支撑技术的深入研究, 实现信息物理融合系统技术的应用推广, 这将是我国自动化领域学者的重大机遇.
4. 结论
在过去的25年里, 科学基金在中国的基础研究和科学系统发展中一直处于中心地位, 并在中国科研体系的持续健康发展中发挥关键作用.在科学基金的资助下, 经过几代自动化领域专家学者的不懈努力, 我国在自动化领域取得了丰硕的成果, 并为经济增长做出了重要贡献.科技的进步会促进社会经济的发展, 直接影响人民生活水平和综合国力, 因此一个国家的科技发展水平也就决定了其发达程度, 而自动化技术与科技发展密切相关.在新历史时期, 我国在自动化领域的研究更多地转向基础理论的研究和新兴交叉方向的研究, 并希望以此作为突破口, 对自动化强国进行追赶与超越, 争取早日成为自动化科技强国, 广大自动化领域的学者仍需再接再厉, 为我国的科技发展作出更大的贡献.
致谢: 本文部分数据及观点引自《2016-2017控制科学与工程学科发展报告》, 谨向报告编写者及中国自动化学会致以谢意.
-
表 1 数据集统计信息
Table 1 Dataset statistics
数据集 Wiki NYT PubMed CILIN 文档 100000 118664 1554433 — 句子 6839331 3002123 15051203 — 训练集单词 8731 2600 72627 75614 训练集同义词集合 4359 1273 28600 17317 测试集单词 891 389 1743 2237 测试集同义词集合 256 117 250 500 表 2 超参数设置
Table 2 Hyper-parameter settings
数据集 Wiki NYT PubMed CILIN 词向量维度$d_w$ 50 50 50 300 词级别表示维度$d_p$ 250 250 250 250 集合表示隐单元维度$d'_s$ 500 500 500 500 学习率 0.0001 0.0001 0.0003 0.0003 训练轮数 800 500 50 50 负样本采样数量$K$ 50 20 50 70 批大小 64 32 32 32 随机失活比例 0.5 0.3 0.3 0.3 字向量维度$d_c$ 50 50 50 150 卷积窗口大小$w_c$ 5 5 5 5 字级别表示维度$d_v$ 24 24 24 50 辅助判别器损失比率$\alpha$ 0.15 0.15 0.15 0.15 表 3 数据集噪声比例
Table 3 Noise data percentage on datasets
统计类别 Wiki PubMed 训练集 测试集 训练集 测试集 原始词对 4372 635 44027 1493 噪声样本对 875 169 2740 70 遗漏样本对 380 182 12851 331 干净词对 3877 648 54138 1754 原始集合数量 4359 256 28600 250 干净集合数量 3327 228 25761 259 表 4 实验结果(%)
Table 4 Main experimental results (%)
方法 Wiki NYT PubMed ARI (± std) FMI (± std) NMI (± std) ARI (± std) FMI (± std) NMI (± std) ARI (± std) FMI (± std) NMI (± std) K-means* 34.35
(± 1.06)35.47
(± 0.96)86.98
(± 0.27)28.87
(± 1.98)30.85
(± 1.76)83.71
(± 0.57)48.68
(± 1.93)49.86
(± 1.79)88.08
(± 0.45)Louvain* 42.25 (± 0) 46.48 (± 0) 92.58 (± 0) 21.83 (± 0) 30.58 (± 0) 90.13 (± 0) 46.58 (± 0) 52.76 (± 0) 90.46 (± 0) SetExpan + Louvain* 44.78
(± 0.28)44.95
(± 0.28)92.12
(± 0.02)43.92
(± 0.90)44.31
(± 0.93)90.34
(± 0.11)58.91
(± 0.08)61.87
(± 0.07)92.23
(± 0.15)约束K-means* 38.80
(± 0.51)39.96
(± 0.49)90.31
(± 0.15)33.80
(± 1.94)34.57
(± 2.06)87.92
(± 0.30)49.12
(± 0.85)51.92
(± 0.83)89.91
(± 0.15)SVM + Louvain* 6.03
(±0.73)7.75
(± 0.81)25.43
(± 0.13)3.64
(± 0.42)5.10
(± 0.39)21.02
(± 0.27)7.76
(± 0.96)8.79
(± 1.03)31.08
(± 0.34)L2C* 12.87
(± 0.22)19.90
(± 0.24)73.47
(± 0.29)12.71
(± 0.89)16.66
(± 0.68)70.23
(± 1.20)— — — SynSetMine* 56.43
(± 1.31)57.10
(± 1.17)93.04
(± 0.23)44.91
(± 2.16)46.37
(± 1.92)90.62
(± 1.53)74.33
(± 0.66)74.45
(± 0.64)94.90
(± 0.97)SynSetMine 54.52
(± 1.23)54.87
(± 1.08)92.80
(± 0.20)47.33
(± 1.84)47.96
(± 2.07)90.16
(± 1.29)71.61
(± 0.66)72.20
(± 0.60)94.38
(± 0.60)NL-P2V 63.01
(± 1.06)63.54
(± 0.98)93.92
(± 0.12)50.72
(± 1.63)52.88
(± 2.10)91.66
(± 1.02)75.54
(± 0.88)75.65
(± 0.56)94.98
(± 0.49)NL-Word-P2V 61.31
(± 0.94)61.18
(± 0.76)93.70
(± 0.41)49.13
(± 1.07)51.69
(± 1.71)91.21
(± 0.45)74.67
(± 0.96)74.58
(± 0.50)95.02
(± 0.46)NL-P2V w/o P2V 56.09
(± 1.01)56.34
(± 0.83)93.13
(± 0.31)49.04
(± 1.43)50.02
(± 1.79)91.07
(± 0.57)73.48
(± 0.92)73.49
(± 0.47)94.47
(± 0.56)表 5 CILIN实验结果(%)
Table 5 Experimental results on CILIN (%)
方法 训练噪声比例 ARI FMI NMI SynSetMine 0 17.07 17.97 71.94 NL-P2V 1 20.26 20.73 73.97 SynSetMine 2 17.02 17.57 73.34 NL-P2V 3 17.01 17.96 73.36 SynSetMine 3 14.28 15.80 75.00 NL-P2V 5 16.24 16.91 74.01 表 6 效率对比
Table 6 Efficiency comparison
方法 训练 集合预测 Wiki
(h)NYT PubMed
(h)Wiki
(s)NYT
(s)PubMed
(s)K-means — — — 1.82 0.88 2.95 Louvain — — — 3.94 20.59 74.60 SynSetMine 7.7 77 min 3.6 3.57 1.24 19.11 NL-P2V w/o P2V 8.2 80 min 4.9 3.60 1.18 20.58 NL-P2V 18.1 2.9 h 7.1 6.47 2.69 27.04 -
[1] Azad H K, Deepak A. Query expansion techniques for information retrieval: a survey. Information Processing & Management, 2019, 56(5): 1698-1735. [2] Gui T, Ye J, Zhang Q, Zhou Y, Gong Y, Huang X. Leveraging document-level label consistency for named entity recognition. In: Proceedings of the 29th International Joint Conference on Artificial Intelligence. Virtual Event: 2020. 3976−3982 [3] Zhang H, Cai J, Xu J, Wang J. Complex question decomposition for semantic parsing. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: ACL, 2019. 4477−4486 [4] 饶子昀, 张毅, 刘俊涛, 曹万华. 应用知识图谱的推荐方法与系统. 自动化学报, 2020, 46(x): 1-16.Rao Zi-Yun, Zhang Yi, Liu Jun-Tao, Cao Wan-Hua. Recommendation methods and systems using knowledge graph. Acta Automatica Sinica, 2020, 46(x): 1-16. [5] 侯丽微, 胡珀, 曹雯琳. 主题关键词信息融合的中文生成式自动摘要研究. 自动化学报, 2019, 45(3): 530-539.HOU Li-Wei, HU Po, CAO Wen-Lin. Automatic Chinese Abstractive Summarization With Topical Keywords Fusion. ACTA AUTOMATICA SINICA, 2019, 45(3): 530-539. [6] Qu M, Ren X, Han J. Automatic synonym discovery with knowledge bases. In: Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Halifax, Canada: ACM, 2017. 997−1005 [7] Wang Z, Yue X, Moosavinasab S, Huang Y, Lin S, Sun H. SurfCon: Synonym discovery on privacy-aware clinical data. In: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Anchorage, USA: ACM, 2019. 1578−1586 [8] Li C, Zhang M, Bendersky M, Deng H, Metzler D, Najork M. Multi-view embedding-based synonyms for email search. In: Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. Paris, France: ACM. 575−584 [9] Shen J, Lyu R, Ren X, Vanni M, Sadler B, Han J. Mining entity synonyms with efficient neural set generation. In: Proceedings of the 33rd AAAI Conference on Artificial Intelligence. Honolulu, Hawaii, USA: AAAI, 2019. 249−256 [10] Song H, Kim M, Park D, Lee J. Learning from noisy labels with deep neural networks: A survey [Online], available: https://arxiv.org/abs/2007.08199, July 22, 2020 [11] Arazo E, Ortego D, Albert P, O'Connor N E, McGuinness K. Unsupervised label noise modeling and loss correction. In: Proceedings of the 36th International Conference on Machine Learning. Long Beach, USA: PMLR, 2019. 312−321 [12] Zhang H, Long D, Xu G, Zhu M, Xie P, Huang F, et al. Learning with noise: Improving distantly-supervised fine-grained entity typing via automatic relabeling. In: Proceedings of the 29th International Joint Conference on Artificial Intelligence. Virtual Event: IJCAI, 2020. 3808−3815 [13] Chen B, Gu X, Hu Y, Tang S, Hu G, Zhuang Y, et al. Improving distantly-supervised entity typing with compact latent space clustering. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: ACL, 2019. 2862−2872 [14] Jiang L, Huang D, Liu M, Yang W. Beyond synthetic noise: Deep learning on controlled noisy labels. In: Proceedings of the 37th International Conference on Machine Learning. Virtual Event: PMLR, 2020. 4804−4815 [15] Mikolov T, Sutskever I, Chen K, Corrado G S, Dean J. Distributed representations of words and phrases and their compositionality. In: Proceedings of the 27th Annual Conference on Neural Information Processing Systems. Lake Tahoe, USA: NIPS, 2013. 3111−3119 [16] 李小涛, 游树娟, 陈维. 一种基于词义向量模型的词语语义相似度算法. 自动化学报, 2020, 46(8): 1654-1669.Li Xiao-Tao, You Shu-Juan, Chen Wai. An algorithm of semantic similarity between words based on word single-meaning embedding model. Acta Automatica Sinica, 2020, 46(8): 1654-1669. [17] Fei H, Tan S, Li P. Hierarchical multi-task word embedding learning for synonym prediction. In: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. Anchorage, USA: ACM, 2019. 834−842 [18] Roth M, Upadhyay S. Combining discourse markers and cross-lingual embeddings for synonym-antonym classification. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: ACL, 2019. 3899−3905 [19] Miller G. Wordnet: a lexical database for english. Communications of the ACM, 1995, 38(11): 39-41. doi: 10.1145/219717.219748 [20] Zaheer M, Kottur S, Ravanbakhsh S, Póczos B, Salakhutdinov R, Smola A J. Deep sets. In: Proceedings of the Annual Conference on Neural Information Processing Systems. Long Beach, USA: NIPS, 2017. 3391−3401 [21] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017. [22] Hazem A, Daille B. Word embedding approach for synonym extraction of multi-word terms. In: Proceedings of the 11th International Conference on Language Resources and Evaluation. Miyazaki, Japan: ELRA, 2018. 297−303 [23] Devlin J, Chang M W, Lee K, Toutanova K. Bert: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: ACL, 2019. 4171−4186 [24] Banar N, Daelemans W, Kestemont M. Character-level transformer-based neural machine translation. In: Proceedings of the 4th International Conference on Natural Language Processing and Information Retrieval. Seoul, South Korea: ACM, 2020. 149−156 [25] Miyamoto Y, Cho K. Gated word-character recurrent language model. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Austin, USA: ACL, 2016. 1992−1997 [26] Lukovnikov D, Fischer A, Lehmann J, Auer S. Neural network-based question answering over knowledge graphs on word and character level. In: Proceedings of the 26th International Conference on World Wide Web. Perth, Australia: ACM, 2017. 1211−1220 [27] Joshi M, Choi E, Levy O, Weld D S, Zettlemoyer L. Pair2Vec: Compositional word-pair embeddings for cross-sentence inference. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, USA: ACL, 2019. 3597−3608 [28] Pereyra G, Tucker G, Chorowski J, Kaiser L, Hinton G E. Regularizing neural networks by penalizing confident output distributions. In: Proceedings of the 5th International Conference on Learning Representations. Toulon, France: ICLR, 2017. [29] Nguyen X V, Epps J, Bailey J. Information theoretic measures for clusterings comparison: Variants, properties, normalization and correction for chance. The Journal of Machine Learning Research, 2010, 11: 2837-2854. [30] Blondel V, Guillaume J, Lambiotte R, Lefebvre E. Fast unfolding of communities in large networks. Journal of Statistical Mechanics: Theory and Experiment, 2008, 2008(10): 10008. doi: 10.1088/1742-5468/2008/10/P10008 [31] Shen J, Wu Z, Lei D, Shang J, Ren X, Han J. Setexpan: Corpus-based set expansion via context feature selection and rank ensemble. Machine Learning and Knowledge Discovery in Databases, 2017. 1: 288-304. [32] Hsu Y, Lv Z, Kira Z. Learning to cluster in order to transfer across domains and tasks. In: Proceedings of the 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2018. [33] Xu P, Barbosa D. Neural fine-grained entity type classification with hierarchy-aware loss. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. New Orleans, Louisiana, USA: ACL, 2018. 16−25 [34] van der Maaten L. Accelerating t-sne using tree-based algorithms. The Journal of Machine Learning Research, 2014, 15(1): 3221-3245. [35] He Y, Chakrabarti K, Cheng T, Tylenda T. Automatic discovery of attribute synonyms using query logs and table corpora. In: Proceedings of the 25th International Conference on World Wide Web. Montreal, Canada: ACM, 2016. 1429−1439 [36] Liu X, Wang L, Zhang J, Yin J, Liu H. Global and local structure preservation for feature selection. IEEE Transactions on Neural Networks and Learning Systems, 2013, 25(6): 1083-1095. [37] Grigonyte G, Cordeiro J, Dias G, Moraliyski R, Brazdil P. Paraphrase alignment for synonym evidence discovery. In: Proceedings of the 23rd International Conference on Computational Linguistics. Beijing, China: ACL, 2010. 403−411 [38] 王亚珅, 黄河燕, 冯冲, 周强. 基于注意力机制的概念化句嵌入研究. 自动化学报, 2020, 46(7): 1390-1400.WANG Ya-Shen, HUANG He-Yan, FENG Chong, ZHOU Qiang. Conceptual Sentence Embeddings Based on Attention Mechanism. ACTA AUTOMATICA SINICA, 2020, 46(7): 1390-1400. [39] Ustalov D, Panchenko A, Biemann C. Automatic induction of synsets from a graph of synonyms. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada: ACL, 2017. 1579−1590 [40] Tang C, Liu X, Li M, Wang P, Chen J, Wang L, Li W. Robust unsupervised feature selection via dual self-representation and manifold regularization. Knowledge-based Systems, 2018. 145: 109-120. doi: 10.1016/j.knosys.2018.01.009 [41] Wang X, Hua Y, Kodirov E, Robertson N M. ProSelfLC: Progressive self label correction for training robust deep neural networks. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Virtual Event: CVPR, 2021. [42] Lin Y, Shen S, Liu Z, Luan H, Sun M. Neural relation extraction with selective attention over instances. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: ACL, 2016. 2124−2133 -