-
摘要: 现有多模态机器翻译(Multi-modal machine translation, MMT)方法将图片与待翻译文本进行句子级别的语义融合. 这些方法存在视觉信息作用不明确和模型对视觉信息不敏感等问题, 并进一步造成了视觉信息与文本信息无法在翻译模型中充分融合语义的问题. 针对这些问题, 提出了一种跨模态实体重构(Cross-modal entity reconstruction, CER)方法. 区别于将完整的图片输入到翻译模型中, 该方法显式对齐文本与图像中的实体, 通过文本上下文与一种模态的实体的组合来重构另一种模态的实体, 最终达到实体级的跨模态语义融合的目的, 通过多任务学习方法将CER模型与翻译模型结合, 达到提升翻译质量的目的. 该方法在多模态翻译数据集的两个语言对上取得了最佳的翻译准确率. 进一步的分析实验表明, 该方法能够有效提升模型在翻译过程中对源端文本实体的忠实度.Abstract: Existing multi-modal machine translation (MMT) methods perform the sentence-level semantic fusion of images and text to be translated. These methods have problems such as the unclear role of visual information played in the translation procedure and the insensitivity of the model to visual information, and further cause the problem that visual information and text information cannot be fully semantically integrated into the translation models. To solve these problems, a cross-modal entity reconstruction (CER) method has been proposed. Different from incorporating the complete image into the translation model, this method explicitly aligns the entities in the text and the image, reconstructs the entity of one modality through the combination of the text context and the entity of the other modality, and finally achieves the purpose of entity-level cross-modal semantic fusion. Through the multi-task learning method, the CER model is combined with the translation model to improve the translation quality. The method achieves the best translation accuracy on the two language pairs of the multi-modal translation dataset. Further analysis experiments show that this method can effectively improve the fidelity to the source-end textual entities in the translation procedure.
-
随着社会经济的迅速发展, 工业生产能力增强, 便利了我们的生活. 但与此同时, 工业生产、汽车尾气、食品加工等所产生的废气也带来了严重的环境污染问题. 其中的挥发性有机化合物(Volatile organic compounds, VOCs)是导致酸雨、雾霾等的主要原因[1], 也给人的生理健康带来了极大的危害. 杨威[2]结合国内外的VOCs研究现状, 对大连市的VOCs排放及治理对策进行了详细阐述. 指出了VOCs污染的治理刻不容缓, 对VOCs种类和浓度的监测成为首要问题. 此外在医疗健康[3]、食品行业[4]和智能家居[5]等行业, VOCs 的痕量检测也起着至关重要的作用.
长期以来, 半导体传感器由于方案成熟、灵敏度高、响应速度快且制作简单, 在VOCs 检测方面得到了广泛的应用[6]. 在半导体传感器领域, 气敏响应是判断气体的种类和浓度的重要指标. 然而, 除了少数仅对某种气体响应的传感器之外, 大多数传感器可以同时对多种气体产生响应. 在不同种类不同浓度气体中有相同的气敏响应, 即具有较差的选择性[7], 这成为制约其发展的瓶颈. 即便是具有良好选择性的只对某种气体响应的传感器, 也无法适应复杂环境多种气体的检测. 为此, 我们尝试使用动态测试方法[8]来提高选择性, 并利用传感器对多种气体都有响应的特性, 增加输出信号的信息量, 从而辨别不同种类不同浓度的气体. 但从目前动态测试的发展水平来看, 由于半导体气体传感器的敏感机理和建模研究一直是一个难点, 而温度调制下的气体传感器的动态响应信号和提取的特征参数的物理意义不明确, 导致气体传感器响应模型的建立和温度调制模式的优化困难[9]. 基于目前的研究现状, 以及对静态性能指标的研究, 阐述了静态性能指标与动态测试信号的对应关系, 提出了在动态测试中选取合适传感器的方法.
目前的动态测试方法主要是周期性循环加热波方法[10-13], 有部分文献在周期性循环加热波方法的基础上研究了多级伪随机序列[14-15]、自适应式温度调制[16-17 ]方法. 在周期性循环加热波方法中, 使用调制波形以矩形波[18-20]为主. 为此本文探究了静态响应时间、最佳工作温度指标、不同温度的气敏响应和传感器的复现性与动态响应信号的关系, 提出了适合于动态测试的半导体传感器的选择方法; 以矩形波为例研究了周期、占空比、工作温度范围对动态响应信号的影响, 在不降低动态响应信号品质的前提下, 缩短在实际应用中的响应时间和功耗; 结合支持向量机(Support vector machine, SVM)算法[21]实现了对不同浓度的丙酮、甲醛、甲酸、乙酸丁酯和乙醇的分类识别.
1. 实验过程
1.1 二氧化锡传感器的制备
用电子天平称取0.267 g SnCl2·2H2O与0.30 g的NaOH放入20 ml的无水乙醇和20 ml的去离子水的混合液中并用磁力搅拌器搅拌20 min, 然后将得到的溶液装入反应釜中, 在170 ℃条件下加热24 h. 待加热结束后自然冷却至室温, 用无水乙醇和去离子水交替清洗3次, 获得沉淀物后在60 ℃条件下干燥. 将干燥后的材料进行研磨, 然后在500 ℃条件下煅烧2 h获得SnO2纳米材料.
传感器主要由底座、Ni-Cr加热丝、陶瓷管构成, 如图1(a)所示. 将少量SnO2纳米材料与无水乙醇3 : 1混合. 然后在超声机中超声处理得到粘稠状膏体. 将带有金电极的陶瓷管蘸取少量膏体后在表面形成一层敏感膜. 再将陶瓷管放入马弗炉中在300 ℃下煅烧2 h以去除乙醇, 在表面形成一层致密的氧化膜. 冷却后将Ni-Cr加热丝插入陶瓷管中焊接, 最终放在老化平台上在400 ℃下老化7天[22].
1.2 测试过程
本实验气敏测试装置的示意图如图1(b)所示. 气敏测试装置由干燥空气气瓶、反应气室、可编程直流电源、数字源表和计算机组成, 同时通过Labview开发环境实现对传感器阻值的读取, 以及对可编程电源实施远程控制. 气瓶内的气体为纯净干燥合成空气(79%氮气、21%氧气、0%湿度), 打开气瓶的气阀, 气体通入气室之中, 可以将反应气室内的空气送往屋外; 气室中央底座和六角传感器直插连接; 气室一侧接可编程直流电源, 通过调节电源的电压使传感器达到需要的工作温度, 或者按照规定的波形变化; 另一侧接数字源表, 用于测试工作状态下传感器的阻值; 计算机通过Labview虚拟仪表采集信息, 以数据形式, 记录传感器的阻值情况.
首先进行静态测试, 获得传感器的基础数据. 先定义传感器的气敏响应为
$$ \small S=\frac{{R}_{{\rm{air}}}}{{R}_{{\rm{gas}}}}=\frac{{I}_{{\rm{gas}}}}{{I}_{{\rm{air}}}} $$ (1) 式中, Rair和Rgas分别表示半导体传感器在空气中和待测气体中的电阻值, 相应地, Iair和Igas分别代表空气中和待测气体中的电流值[23]. 定义传感器的响应时间T90为从Iair上升到平衡信号值Igas的90%所需要的时间. 气敏响应测试中, 本文共测试了5种气体, 分别为丙酮(CH3COCH3)、甲醛(HCHO)、甲酸(HCOOH)、乙酸丁酯(CH3COO(CH2)3CH3)和乙醇(C2H5OH). 分别做了最佳工作温度、浓度梯度、长期稳定性测试. 根据之前的文献研究, SnO2传感器的最佳工作温度在200 ~ 280 ℃[24-25]. 将测试回路电压设置为10 V, 在100 ppm的不同气体环境, 150 ~ 350 ℃的温度范围内进行测试. 先在以50 ℃为温度梯度做气敏响应测试, 然后在最佳温度区间内逐渐缩小梯度得出最佳工作温度. 在最佳工作温度区间内, 对5 ~ 400 ppm的不同气体进行了浓度梯度测试, 以获得其选择性. 按照5天的间隔, 进行了为期一个月的长期稳定性测试. 根据静态测试结果评价传感器的性能, 并在周期为80 s, 施加电压3 ~ 7 V的三角波下进行了动态测试分析, 描述静态性能指标与动态响应信号的对应关系.
随后研究了矩形波的周期和占空比改变对动态响应信号的影响, 分别测试了周期30 s占空比50%、周期75 s占空比60%和周期50 s占空比60%的矩形波. 研究了矩形波的温度范围的改变对动态响应信号的影响, 分别使用了90 ~ 350 ℃、120 ~ 350 ℃、150 ~ 350 ℃和180 ~ 350 ℃的矩形波对待测气体进行测试, 研究低温段的改变对动态响应信号的影响; 分别使用了120 ~ 320 ℃、120 ~ 350 ℃和120 ~380 ℃的矩形波对待测气体进行测试, 研究高温段的改变对动态响应信号的影响. 并在最佳波形下收集多组不同种类不同浓度的样本, 通过支持向量机算法定量的分析不同的气体. 说明在之前的测试中, 降低温度范围, 缩短周期并没有影响动态响应信号的品质.
2. 实验结果及讨论
2.1 SnO2传感器的响应机理
SnO2的气敏现象大都采用表面控制型敏感材料的传感机理来解释. 当接触到VOCs时, 会在敏感材料表面发生气体的吸附和脱附现象, 由于在此过程中有电子的交换, 所以纳米材料的电导率也随之发生变化, 其变化大小与传感器温度、气体种类、浓度大小等因素有关. 在SnO2半导体材料表面, 主要存在
${{\rm{O}}}^{2-} $ 、${{\rm{O}}}_2^- $ 和${{\rm{O}}}^- $ 三种吸附态离子. 在室温或温度较低时, 吸附的氧主要以${{\rm{O}}}_2^- $ 为主, 材料表面的氧离子吸附处于动态平衡; 当敏感材料处于温度较高(即处于加热工作状态)的情况下, 吸附态的${{\rm{O}}}_2^- $ 夺得电子转变为${{\rm{O}}}^{2-} $ 和${{\rm{O}}}^- $ . 致使材料表面形成正电荷层, 于是其晶界势垒宽度 L变窄, 敏感材料电导率升高, 电阻下降. 当处于加热工作状态下, 敏感材料表面接触到VOCs时, 气体会与吸附态的氧离子发生反应, 并释放电子使材料表面势垒宽度 L 进一步变窄, 电导率快速上升. 当上述吸附过程达到平衡态时, 敏感材料的表面电阻也随之达到稳定态. 温度调制是打破在静态测试中恒定温度下的氧离子种类的动态平衡, 使其晶界势垒宽度 L成周期性变化, 表面吸附离子形态也会发生周期性变化. 在这个过程中又伴随着测试气体与不同吸附态的氧离子反应, 当氧离子态活性与测试气体匹配时就会产生响应曲线的峰值变化$. $ 2.2 SnO2传感器的静态性能
对传感器进行最佳工作温度、浓度梯度、长期稳定性等的测试是判断传感器性能的优劣以及动态测试前期工作的重要步骤. 因此, 我们首先研究了在150 ~ 350 ℃温度范围内100 ppm不同气体下的传感器传感行为, 以获取最佳工作温度. 图2为丙酮、甲醛、甲酸、乙酸丁酯、乙醇在不同温度下的气敏响应. 得出丙酮、甲醛、甲酸、乙酸丁酯和乙醇的最佳工作温度分别为280 ℃、240 ℃、170 ℃、220 ℃、260 ℃. 上述气体在其最佳工作温度下的静态响应曲线如图3所示. 得出丙酮、甲醛、甲酸、乙酸丁酯和乙醇的响应时间(T90) 分别为116 s、98 s、81 s、111 s、72 s, 因为SnO2没有添加催化剂, 响应时间较长, 但稳定性好, 我们选定250 ℃做了浓度梯度测试, 结果如图4(a)所示. 可以很明显地看出不同的气体在浓度不同的情况下也可以获得相同的气敏响应, 选择性差. 传感器的长期稳定性稳定是传感器的测试以及使用的基础, 我们将100 ppm的不同气体, 以5天为间隔, 在一个月内做了长期稳定性测试结果如图4(b)所示. 在一个月的时间内, 气敏响应差距不大, 显示了SnO2优异的稳定性.
2.3 静态响应指标与动态响应信号的关系
从图2和图3中可以看出不同气体的最佳工作温度不同, 这是导致不同气体动态响应信号的最高点出现在不同时刻的重要原因. 静态测试中的气敏响应是在恒定功率作用下经过100 s左右读取的数值. 此时温度已经被恒定的加热到某一固定的值, 敏感材料表面吸附的离子之间的反应也达到一种平衡状态. 但在动态测试中, 实际上我们是通过调节电压来间接调节温度的. 某一时刻的温度并不能利用静态测试中的功率—温度对应关系来衡量, 而是受到前置功率的影响. 例如在三角波中, 当电压增加时, 温度与静态测试中同功率的温度相比偏低, 反之亦然. 对于上述气体, 在施加3 ~ 7 V电压、周期为80 s的三角波时, 动态响应信号如图5所示. 明显地看出对于不同的气体有不同的动态响应信号, 且最高峰出现的时刻不一致. 丙酮、甲醛、甲酸、乙酸丁酯、乙醇的最高峰出现时刻分别为第32 s、28 s、25 s、27 s、29 s. 与之前的最佳工作温度测试相对应, 最佳工作温度越低, 最高峰出现的时刻越早. 在之后的模式识别过程中, 最高点出现时刻不同是定性分类的一个重要依据. 受实验设备的限制, 只能测出静态测试中稳定的加热功率对应的温度值. 但可以确定的是, 在动态测试中, 我们要选取对于待测气体有不同的最佳工作温度的传感器, 然后施加温度缓慢变化的加热波形(例如: 三角波、正弦波等), 就可以读取到最高点出现在不同时刻的动态响应信号.
图2展示了传感器在不同温度下的气敏响应, 这也与动态响应信号的复杂响应瞬变有着密切的关系. 由于不同气体在不同温度下有不同的气敏响应, 也就是说, 在静态测试时, 不同的温度下吸附气体之后的输出电流不同. 这种现象反应在动态测试中, 由于温度的变化, 导致动态响应信号的波形改变. 如图5所示, 不同气体在动态测试时产生不同的动态响应信号. 但由于静态测试的气敏响应需要一定的反应时间, 动态测试中的响应信号与不同温度的气敏响应值不是一一对应的关系.
为了研究复现性与动态响应信号的关系, 以100 ppm乙醇为例, 在400 ℃下做了复现性测试, 结果如图6所示, 复现性主要的影响因素是传感器的脱附性能. 又知, 对同一个传感器而言, 温度越高, 脱附性越好. 测试高温时而不是最佳工作温度时的复现性, 主要是因为在动态测试时, 周期可重复性的原因除了传感器的稳定之外, 较长的高温区间可以增加吸附脱附速度. 之所以选择矩形波进行动态测试, 也是考虑到了矩形波相对于其他波形而言, 有一个稳定的高温时段, 有利于吸附和脱附. 这也是矩形波经常用来当做加热波形的主要原因.
2.4 矩形波温度调制参数的选择
在周期和占空比的选择中, 均以100 ppm乙醇为例进行绘图展示结果. 先使用了周期为30 s、占空比为50%、温度范围为150 ~ 350 ℃的矩形波进行温度调制. 动态响应信号如图7(a)所示, 不能发现明显的特征来区分气体. 随后改进加热波形, 每个周期增加30 s的高电平, 15 s的低电平, 总周期为75 s, 占空比为60%, 温度范围仍然为150 ~ 350 ℃. 结果如图7(b)所示, 可以明显地发现特征峰, 但同时也发现由于高温下响应速度快, 动态响应信号在20 s之后便稳定在某一输出电流. 因为在实际应用中, 动态测试的加热周期相当于静态测试的响应时间, 响应时间越短, 可实用性越高, 本着这一原则, 缩短高、低电平中无效的加热时间, 尽可能地缩短周期信号. 将高电平缩短15 s, 低电平缩短10 s, 总周期50 s, 占空比60%, 温度范围为150 ~ 350 ℃的动态响应信号如图7(c)所示. 与图7(b)相比, 特征峰并没有明显的变化. 基于响应时间的考虑, 最终选用周期50 s、占空比60%的矩形波作为加热波形.
在工作温度的选择中, 均以100 ppm乙醇为例进行绘图展示结果. 在之前对占空比和周期的调制过程中, 使用的是150 ~ 350 ℃的温度范围. 现研究工作温度范围对动态响应信号的影响, 首先对低温段进行分析. 在周期为50 s、 占空比60%的矩形波的基础上, 分别测试了当低温段为90 ℃、120 ℃、150 ℃、180 ℃, 高温段为350 ℃时的动态响应信号. 结果如图8所示, 90 ℃时低温段特征峰较小, 120 ℃、150 ℃、180 ℃时区别不大. 本着低功耗的原则, 选择120 ℃的低温段进行动态测试. 然后对于高温段的选择, 分别测试了当高温段为320 ℃、350 ℃、380 ℃, 低温段为120 ℃时的动态响应信号. 并且从前文的理论中可知, 高温段的不同, 可能导致周期可重复性的不同, 为此, 我们做了周期重复性的测试. 结果如图9所示, 从波形变化的角度分析, 随着温度的增加, 动态响应信号中的最高峰在增加. 从周期可重复性考虑, 明显地由于温度的降低, 在图9(a)中, 320 ℃时周期可重复性明显不如其他两组. 温度升高, 在图9(c)中, 380 ℃周期可重复性也不会有太大的提高. 基于功耗的考虑, 最终采用的温度范围为120 ~ 350 ℃.
2.5 数据获取与模式识别
根据之前的分析, 最终采用了周期为50 s、占空比60%、 温度范围为120 ~ 350 ℃的矩形波进行测试. 5 ppm、10 ppm、50 ppm、100 ppm、200 ppm、300 ppm、400 ppm的丙酮、甲醛、甲酸、乙酸丁酯和乙醇的动态响应梯度信号如图10所示(图中曲线所代表的浓度随箭头方向依次递增). 对于不同的气体之间, 它们响应曲线特征峰出现的位置不同; 对于同种气体在不同浓度下的响应, 它们响应曲线走势相同但有不同的幅值. 特征峰出现的位置以及幅值即为判断气体的种类和浓度的重要特征. 在浓度梯度的测试中, 共获得了831组样本. 由于支持向量机基于不同的数学理论, 对高维数据的识别率较高. 所以并不需要对数据进行特征提取, 降低维度. 将未特征化的数据导入到支持向量机算法中. 为了避免过度拟合, 在支持向量机训练中采用5次交叉验证将数据划分为递归训练集和验证集. 训练识别的准确性可以从平均5个训练结果中获得. 测试结果如图11所示, 识别率达到100%.
3. 结束语
采用化学沉淀法制备了SnO2气体传感器. 首先对静态性能指标进行分析, 得出了根据静态测试结果选取适合动态测试传感器的一般特点: 具有较快的静态响应时间、不同的气体有不同的最佳工作温度、不同气体在相同温度下气敏响应相差大、具有良好的复现性等. 并得出了最佳工作温度与动态响应信号的最高峰的出现时刻的隐含关系; 不同温度的气敏响应对动态响应波形的影响; 静态测试中的重复性和动态测试中的周期复现性的对应关系. 通过对矩形波周期、占空比和工作温度范围的调整, 最终选取周期50 s、占空比60%、工作温度范围为120 ~ 350 ℃. 在不降低动态响应信号的品质的情况下, 降低了动态测试在实际应用中的响应时间和功耗. 并使用支持向量机验证了动态响应信号的品质, 当样本量为831 (训练集为731)时, 精度高达100%.
-
表 1 MMT模型在Multi30K以及Ambiguous MSCOCO上的英译德和英译法的翻译结果
Table 1 Results of MMT models on the English-German Multi30K and English-French Ambiguous MSCOCO
模型 英译德 英译法 Test2016 Test2017 MSCOCO Test2016 B M B M B M B M 句子级融合方法 IMGD 37.3 55.1 — — — — — — VMMTC 37.5 55.7 26.1 45.4 21.8 41.2 — — SerAttTrans 38.7 57.2 — — — — 60.8 75.1 GumAttTrans 39.2 57.8 31.4 51.2 26.9 46.0 — — 视觉实体融合方法 Parallel RCNNs 36.5 54.1 — — — — — — DelMMT 38.0 55.6 — — — — 59.8 74.4 GMMT 39.8 57.6 32.2 51.9 28.7 47.6 60.9 74.9 增强 NMT 方法 Imagination 36.8 55.8 — — — — — — VMMTF 37.7 56.0 30.1 49.9 25.5 44.8 — — EMMT 39.7 57.5 32.9 51.7 29.1 47.5 61.1 75.8 本文方法 Base 38.5 57.5 31.0 51.9 27.5 47.4 60.5 75.6 CER-NMT 40.2 57.8 32.5 52.0 28.3 47.1 61.6 76.1 表 2 在Multi30K Test2016英译德翻译任务上的消融实验
Table 2 Ablation study on the English-German Multi30K Test2016
序号 NMT VER TER TNER B $\omega$ $(1-\omega )\times \alpha$ $(1-\omega) \times \beta$ $(1-\omega) \times \gamma$ 0 0.70 0.12 0.12 0.06 40.2 1 0.76 0.12 0.12 — 40.0 2 0.82 0.12 — 0.06 39.5 3 0.82 — 0.12 0.06 39.6 4 0.70 0.15 0.15 — 39.9 5 0.70 0.20 — 0.10 39.2 6 0.70 — 0.20 0.10 39.3 7 0.88 0.12 — — 38.8 8 0.88 — 0.12 — 38.8 9 0.94 — — 0.06 39.0 10 0.70 0.30 — — 39.2 11 0.70 — 0.30 — 39.4 12 0.70 — — 0.30 39.0 -
[1] Barrault L, Bougares F, Specia L, Lala C, Elliott D, Frank S. Findings of the third shared task on multimodal machine translation. In: Proceedings of the 3rd Conference on Machine Translation: Shared Task Papers. Brussels, Belgium: Association for Computational Linguistics, 2018. 304−323 [2] Elliott D, Frank S, Barrault L, Bougares F, Specia L. Findings of the second shared task on multimodal machine translation and multilingual image description. In: Proceedings of the 2nd Conference on Machine Translation. Copenhagen, Denmark: Association for Computational Linguistics, 2017. 215−233 [3] Elliott D, Frank S, Sima'an K, Specia L. Multi30K: Multilingual English-German image descriptions. In: Proceedings of the 5th Workshop on Vision and Language. Berlin, Germany: Association for Computational Linguistics, 2016. 70−74 [4] Calixto I, Liu Q. Incorporating global visual features into attention-based neural machine translation. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark: Association for Computational Linguistics, 2017. 992−1003 [5] Elliott D, Kádár Á. Imagination improves multimodal translation. In: Proceedings of the 8th International Joint Conference on Natural Language Processing. Taipei, China: Asian Federation of Natural Language Processing, 2017. 130−141 [6] Zhou M Y, Cheng R X, Lee Y J, Yu Z. A visual attention grounding neural model for multimodal machine translation. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics, 2018. 3643−3653 [7] Toyama J, Misono M, Suzuki M, Nakayama K, Matsuo Y. Neural machine translation with latent semantic of image and text [Online], available: https://arxiv.org/pdf/1611.08459.pdf, November 25, 2016 [8] Calixto I, Rios M, Aziz W. Latent variable model for multi-modal translation. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019. 6392−6405 [9] Calixto I, Liu Q, Campbell N. Doubly-attentive decoder for multi-modal neural machine translation. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada: Association for Computational Linguistics, 2017. 1913−1924 [10] Libovický J, Helcl J. Attention strategies for multi-source sequence-to-sequence learning. In: Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada: Association for Computational Linguistics, 2017. 196−202 [11] Libovický J, Helcl J, Mareček D. Input combination strategies for multi-source transformer decoder. In: Proceedings of the 3rd Conference on Machine Translation: Research Papers. Brussels, Belgium: Association for Computational Linguistics, 2018. 253−260 [12] Yao S W, Wan X J. Multimodal transformer for multimodal machine translation. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Seattle, USA: Association for Computational Linguistics, 2020. 4346−4350 [13] Huang P Y, Liu F, Shiang S R, Oh J, Dyer C. Attention-based multimodal neural machine translation. In: Proceedings of the 1st Conference on Machine Translation. Berlin, Germany: Association for Computational Linguistics, 2016. 639−645 [14] Elliott D. Adversarial evaluation of multimodal machine translation. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics, 2018. 2974−2978 [15] Wu Z Y, Kong L P, Bi W, Li X, Kao B. Good for misconceived reasons: An empirical revisiting on the need for visual context in multimodal machine translation. In: Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Association for Computational Linguistics, 2021. 6153−6166 [16] Li J D, Ataman D, Sennrich R. Vision matters when it should: Sanity checking multimodal machine translation models. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Punta Cana, Dominican Republic: Association for Computational Linguistics, 2021. 8556−8562 [17] Caglayan O, Madhyastha P, Specia L, Barrault L. Probing the need for visual context in multimodal machine translation. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, Minnesota, USA: Association for Computational Linguistics, 2019. 4159−4170 [18] Huang X, Zhang J J, Zong C Q. Entity-level cross-modal learning improves multi-modal machine translation. In: Proceedings of the Findings of the Association for Computational Linguistics: EMNLP 2021. Punta Cana, Dominican Republic: Association for Computational Linguistics, 2021. 1067−1080 [19] Long Q Y, Wang M X, Li L. Generative imagination elevates machine translation. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, 2021. 5738−5748 [20] Wang S N, Zhang J J, Zong C Q. Associative multichannel autoencoder for multimodal word representation. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics, 2018. 115−124 [21] Wang S N, Zhang J J, Zong C Q. Learning multimodal word representation via dynamic fusion methods. In: Proceedings of the 32nd AAAI Conference on Artificial Intelligence and the 30th Innovative Applications of Artificial Intelligence Conference and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence. New Orleans, USA: AAAI, 2018. Article No. 733 [22] Agrawal A, Lu J S, Antol S, Mitchell M, Zitnick C L, Parikh D, et al. VQA: Visual question answering. International Journal of Computer Vision, 2017, 123(1): 4-31 doi: 10.1007/s11263-016-0966-6 [23] Li H R, Zhu J N, Ma C, Zhang J J, Zong C Q. Multi-modal summarization for asynchronous collection of text, image, audio and video. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark: Association for Computational Linguistics, 2017. 1092−1102 [24] Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez A N, et al. Attention is all you need. In: Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017. 6000−6010 [25] Wang D X, Xiong D Y. Efficient object-level visual context modeling for multimodal machine translation: Masking irrelevant objects helps grounding. In: Proceedings of the 35th AAAI Conference on Artificial Intelligence, the 33rd Conference on Innovative Applications of Artificial Intelligence, IAAI 2021, the 11th Symposium on Educational Advances in Artificial Intelligence. AAAI, 2021. 2720−2728 [26] Yin Y J, Meng F D, Su J S, Zhou C L, Yang Z Y, Zhou J, et al. A novel graph-based multi-modal fusion encoder for neural machine translation. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Seattle, USA: Association for Computational Linguistics, 2020. 3025−3035 [27] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770−778 [28] Yang Z Y, Gong B Q, Wang L W, Huang W B, Yu D, Luo J B. A fast and accurate one-stage approach to visual grounding. In: Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019. 4682−4692 [29] Koehn P, Hoang H, Birch A, Callison-Burch C, Federico M, Bertoldi N, et al. Moses: Open source toolkit for statistical machine translation. In: Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions. Prague, Czech Republic: Association for Computational Linguistics, 2007. 177−180 [30] Sennrich R, Haddow B, Birch A. Neural machine translation of rare words with subword units. In: Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: Association for Computational Linguistics, 2016. 1715−1725 [31] Kingma D P, Ba J. Adam: A method for stochastic optimization [Online], available: https://arxiv.org/pdf/1412.6980.pdf, July 23, 2015 [32] Papineni K, Roukos S, Ward T, Zhu W J. Bleu: A method for automatic evaluation of machine translation. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, USA: Association for Computational Linguistics, 2002. 311−318 [33] Denkowski M, Lavie A. Meteor universal: Language specific translation evaluation for any target language. In: Proceedings of the 9th Workshop on Statistical Machine Translation. Baltimore, USA: Association for Computational Linguistics, 2014. 376−380 [34] Cho K, van Merriënboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation. In: Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: Association for Computational Linguistics, 2014. 1724−1734 [35] Hochreiter S, Schmidhuber J. Long short-term memory. Neural Computation, 1997, 9(8): 1735-1780 doi: 10.1162/neco.1997.9.8.1735 [36] Liu P B, Cao H L, Zhao T J. Gumbel-attention for multi-modal machine translation [Online], available: https://arxiv.org/pdf/2103.08862.pdf, March 16, 2021 [37] Ive J, Madhyastha P, Specia L. Distilling translations with visual awareness. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019. 6525−6538 [38] Dyer C, Chahuneau V, Smith N A. A simple, fast, and effective reparameterization of IBM model 2. In: Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Atlanta, Georgia, USA: Association for Computational Linguistics, 2013. 644−648 期刊类型引用(3)
1. 周红,周莉,汤世隆,黄文. 基于跨模态技术的地铁施工风险对策生成方法研究. 工程管理学报. 2024(04): 95-100 . 百度学术
2. 陈折,解辰. AI人工智能翻译中基于跨模态实体信息融合的研究. 自动化与仪器仪表. 2024(08): 247-250 . 百度学术
3. 万飞. 基于情感语义增强编解码的神经机器翻译方法. 计算机技术与发展. 2024(09): 94-101 . 百度学术
其他类型引用(3)
-