2.845

2023影响因子

(CJCR)

  • 中文核心
  • EI
  • 中国科技核心
  • Scopus
  • CSCD
  • 英国科学文摘

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于n-gram频率的语种识别改进方法

郝洺 徐博 殷绪成 王方圆

郝洺, 徐博, 殷绪成, 王方圆. 基于n-gram频率的语种识别改进方法. 自动化学报, 2018, 44(3): 453-460. doi: 10.16383/j.aas.2018.c160806
引用本文: 郝洺, 徐博, 殷绪成, 王方圆. 基于n-gram频率的语种识别改进方法. 自动化学报, 2018, 44(3): 453-460. doi: 10.16383/j.aas.2018.c160806
HAO Ming, XU Bo, YIN Xu-Cheng, WANG Fang-Yuan. Improve Language Identification Method by Means of n-gram Frequency. ACTA AUTOMATICA SINICA, 2018, 44(3): 453-460. doi: 10.16383/j.aas.2018.c160806
Citation: HAO Ming, XU Bo, YIN Xu-Cheng, WANG Fang-Yuan. Improve Language Identification Method by Means of n-gram Frequency. ACTA AUTOMATICA SINICA, 2018, 44(3): 453-460. doi: 10.16383/j.aas.2018.c160806

基于n-gram频率的语种识别改进方法

doi: 10.16383/j.aas.2018.c160806
详细信息
    作者简介:

    徐博 中国科学院自动化所副研究员.主要研究方向为自然语言处理, 深度学习, 短文本智能分析.E-mail:boxu@ia.ac.cn

    殷绪成 北京科技大学计算机科学与技术系教授.主要研究方向为模式识别, 机器学习, 文档分析与识别, 信息检索.E-mail:xuchengyin@ustb.edu.cn

    王方圆 中国科学院自动化研究所数字内容技术与服务研究中心副研究员.主要研究方向为模式识别, 多媒体信息处理.E-mail:fangyuan.wang@ia.ac.cn

    通讯作者:

    郝洺 北京科技大学计算机与通信工程学院博士研究生.主要研究方向为自然语言处理, 短文本分类, 语种识别.本文通信作者.E-mail:minghao@xs.ustb.edu.cn

Improve Language Identification Method by Means of n-gram Frequency

More Information
    Author Bio:

    Associate professor at Institute of Automation, Chinese Academy of Sciences. His research interest covers natural language processing, deep learning, and short text intellegent analysis

    Professor in the Department of Computer Science and Technology, University of Science and Technology Beijing. His research interest covers pattern recognition, machine learning, document analysis and recognition, and information retrieval

    Associate professor at the Research Center of Digital Content Technology and Service, Institute of Automation, Chinese Academy of Sciences. His research interest covers pattern recognition and multimedia information processing

    Corresponding author: HAO Ming Ph. D. candidate at the School of Computer and Communication Engineering, University of Science and Technology Beijing. His research interest covers natural language processing, text classification, and language identification. Corresponding author of this paper
  • 摘要: 识别短文本的语言种类是社交媒体中自然语言处理的重要前提,也是一个挑战性热点课题.由于存在集外词和不同语种相同词汇干扰的问题,传统基于n-gram的短文本语种识别方法(如Textcat、LIGA、logLIGA等)识别效果在不同的数据集上相差甚远,鲁棒性较差.本文提出了一种基于n-gram频率语种识别改进方法,根据训练数据不同特性,自动确定语言中特征词和共有词的权重,增强语种识别模型在不同数据集上的鲁棒性.实验结果证明了该方法的有效性.
  • 现如今, 随着社交媒体全球化的发展以及其以短文本作为主要载体的特点, 使得识别短文本的语言种类成为社交媒体中自然语言处理任务的一个挑战性热点课题.语种识别主要的解决方案是观察所有语言典型的字母序列发生的频率.早在1994年Cavnar等提出了基于n-gram的词频排序方法[1], 核心思想是比较语言模型文件和目标文本的n-gram词频排序列表.这个方法在400字以上的长文本取得了99.8%的准确率. Frank于2003年, 将这个方法实现成语种识别工具, 并命名为Textcat[2].

    其他应用在短文本语种识别上的方法也有很多, Hammarstrom在2007年阐述了一个用词缀表来扩充词典的方法, 并且用一个平行语料库来进行测试[3]. Ceylan等在2009年提出了使用决策树来分类语言种类的方法[4], Vantanen等在2010年针对5~21个字符的文本, 提出了使用n-gram语言模型并结合朴素贝叶斯分类器的方法来实现语言种类的目的[5].

    Carter等于2013年针对推特信息提出了基于用户先前消息和嵌入在消息中的连接的内容来实现语种识别的方法, 同时该方法也运用在TwitIE上[6]. Tromp等在2011年提出基于n-gram的图结构语种识别方法[7], 该方法不仅利用词本身的信息, 还有效利用了词与词之间的信息, 使得短文本的语种识别效率大大提升.随后Vogel等在此基础上做了改进[8].

    在这期间, 又有很多语种识别工具被研发出来, Lui等在2012年利用n-gram特征结合多项式朴素贝叶斯分类器创造出langid.py[9]; Nakatani在同年发布了IDIG, 一个基于常识、正则化和贝叶斯分类器的语种识别工具[10], 该工具用于推特数据集. 2013年Brown提出基于n-gram字符特征权重的空间向量模型[11].

    随着深度学习技术越来越成熟, 许多研究员开始思考如何将深度学习技术运用到语种识别中, 并且做了很多尝试.然而经过实践, 深度学习技术在语音领域有很好的效果[12-18], 与此同时, 面向语音领域的语种识别技术也愈发成熟[19-21].但对于短文本而言, 随着语料库不断地完善, 基于统计的机器学习方法更为简单高效[22-23].

    然而, 传统基于n-gram的语种识别对数据集有很强的依赖. Baldwin等指出, 在6种欧洲语料集上取得良好的识别效果并不意味着在含有更多语种的语料集上会取得同样不错的效果[24]. Lui等对各个语种识别模型的评测实验中指出, 同一种模型在不同数据集上的准确率也相差甚远[25].同时他们也指出去除数据集中的噪音, 如推特数据集的特殊字符, 对识别率的提高有明显的帮助.

    在本文中, 我们将Textcat、LIGA和logLIGA三个模型在Europarl[26]、LIGA-dataset、Twituser-21、Twituser-7四个数据集中分别做交叉验证, 同时, 我们使用Europarl做训练集, LIGA-dataset、Twituser-21、Twituser-7做测试集, 两组实验结果相差较大.因为在同一个数据集中, 训练集的内容往往涵盖了测试集或者跟测试集相近, 因此一旦训练集与测试集分别为两个不同的数据集, 那么测试集中会含有大量训练集中没有出现过的词, 即集外词.同时, 不同语种但属于同一种语系的语言, 会含有很多拼写相同的词(如英语和荷兰语都有“is”).在短文本中, 这些词汇在文中所占的比例要比长文本高得多, 对语种识别的正确率有一定的影响.

    我们可以提高每一个语种特征词的权重, 提高单词在所属语种的辨识度, 这样不仅可以解决大类别语种数量增加而导致相似度计算的干扰, 同时使集外词在句子中所占比例减小, 减少集外词对语种识别的影响.此外我们还可以减少所有语种都含有的共有词的权重, 以降低其在短文本中所占的比重, 从而达到提高识别率的效果.

    因此, 本文提出一个根据不同的训练数据, 自适应学习特征词和共有词的权重, 来增强语种识别模型在不同数据集的鲁棒性的方法, 并将其应用在Textcat、LIGA和logLIGA三个模型上, 实验证明了该方法的有效性.

    1994年Cavnar等[1]提出了基于n-gram的词频排序方法, 并且在400字以上的长文本中取得很好的效果.然而多数现代社交软件(如推特、微博等)的信息长度均限制在140个字符以内, 这对语种识别任务提出了新的挑战.针对这一类短文本信息, Tromp等[7]指出, 基于n-gram的方法在区分6种欧洲语言的推特数据集上, 只有93.1%的准确率, Tromp还提出一种基于n-gram的图结构语种识别模型, 使其分类的准确率达到了97.5%, 将错误率减少了一半, 他们将其命名为LIGA.而后, Vogel等[8]于2012年6月提出了4种对LIGA的改进方案, 分别是“加入词长度信息”、“减少重复信息的权重”、“中位分数法”、“log频率法”, 并且通过实验, 指出log频率法分类效果最佳.

    Cavnar等[1]的核心思想是Zipf定律——在自然语言的语料库里, 一个单词出现的次数与它在频率表里的排名成反比.他们先将文本进行清洗, 去掉所有的标点、数字等非字符的符号, 然后将每个单词前后均加上空格, 将这些单词切分成n-gram元组, 并根据元组在该语种中出现的频率由高到低进行排序, 生成语言文件.同时对待识别文本也进行相同的处理, 生成目标文件.识别流程如图 1.

    图 1  Textcat方法识别流程
    Fig. 1  Identification process of Textcat

    将目标文件中每一个n-gram元组与每类语种中相同的n-gram元组的位置求差并取绝对值, 如果语言文件中不包含目标文件的n-gram元组, 则位置差取该目标文件的最大值.将目标文件与每一类语言文件的位置差求和, 位置差最小的那一类语种, 即为目标语种.相似度计算流程如图 2.

    图 2  Textcat模型相似度计算
    Fig. 2  Similarity calculation of Textcat

    这个模型在400字以上的长文本中效果很棒, 然而在140字以下的短文本中, 效果大打折扣.同时, 该模型对语料训练集的选取具有很强的依赖性, 它在计算相似度时, 如果如果语言文件中不包含待测语言的元组, 相似度分数则加上最大距离(即目标文件最大值), 然而语料集长度相差较大时, 则匹配错误率会大大提高.

    LIGA是Tromp等[7]提出的基于n-gram的图结构模型, 他们是构建一个5元组$G = (V, E, L, {W_{v}}, {W_{e}})$, 其中, $V$是n-gram元组, $E$是n-gram元组变换的边, $L$是语种类别的标签, ${W_{v}}$和${W_{e}}$分别是元组点和边的权重.如:

    ($t_{1}$, NL) = is dit een test

    ($t_{2}$, EN) = is this a test

    构建成的图结构如图 3所示.

    图 3  LIGA构造图模型样例
    Fig. 3  An example of the model of LIGA

    构建好图结构之后, 可以将待识别的文本也按照句子顺序切分成3-gram元组, 构建成一个线性的图结构, 将这个结构与之前语言模型的图结构进行比较, 计算相似度, 如图 4所示.

    图 4  待识别文本的线性图结构
    Fig. 4  The linear structure of the text to be recognized

    相似度计算方法为:图模型中, 如果某一语种含有待识别文件的点, 则该语种的分值加一; 同理, 将如果某一语种含有待识别文件的边, 则该语种的分值也加一.将每一类语种的得分除以该语种图内所有点和边的和(即求得目标文件在该语种中所占的比重).最终哪一种语种分值最高, 则认定其为待识别文件的语种.

    这种方法不仅使用了单词本身的信息, 还有效利用了词与词之间信息, 通过构建图模型将孤立的单词元组联系起来, 使得识别准确率得到了质的飞跃.

    Vogel等[8]在2012年提出4种对LIGA的改进方案, 分别是“加入词长度信息”、“减少重复信息的权重”、“中位分数法”、“log频率法”.并且通过实验证明, 4种方法中“log频率法”效果最佳.简单地说, 该方法在LIGA模型计算相似度时, 加入log平滑函数.使用该方法的LIGA模型在6种欧洲语言的数据集上, 取得了99.7%的效果.

    以上方法均有效地提高了短文本识别的效果, 但对数据集有很强的依赖性.在6种欧洲语言的数据集上, 有不错的效果, 一旦更换数据集, 效果就差强人意, 鲁棒性极差.分析其原因, 是因为计算未知语种的n-gram的频率, 与已知语种的n-gram加以比较, 因此它们对训练集有着强大的依赖.随着大类别语种数、集外词和共有词的增加, 训练集中各个语种的区分度就越来越小, 导致识别率越来越低.因此我们提出了特征词、共有词的权重调整法, 增强每一个语种的区分度, 从而增强其鲁棒性.

    本文提出的方法是应用于上述三个模型中.上述三个模型均是在已被标记好的语料中进行训练, 形成语言模型, 标签是这些语料所属的语种.具体做法是提取训练集中的特征词和共有词, 并更新其权重, 增强每一类语种的辨识度, 从而达到提高模型鲁棒性的目的.

    假定有$K$个语种, 有已标记文本集:

    $ T=\{T_{1}, T_{2}, \cdots, T_{i} \}, (i \in \{1, 2, \cdots, K\}) $

    和未标记文本集:

    $ C=\{C_{1}, C_{2}, \cdots, C_{j}\}, (j \in \{1, 2, \cdots, K\}, j\leq i ) $

    以一个二元组$(t, l) \in T_{i} $来表示已标记文本集中每一个句子, 其中$t$表示该句子的文本; $l \in L $表示该文本所对应的语言种类, 例如: $(t_{1}, {\rm EN})= {\rm hello}$表示$t_{1}$句hello属于英语.

    当以3-gram为基本单位创建序列时, 用$N_{3}T_{i}$来表示第$i$个语种的3-gram序列, 可以得到如下序列(用“.”来表示空格):

    $ N_{3}t_{1} = \{ {\rm hel, ell, llo, lo.}\} $

    参考Tromp的方法, 将语言模型定义成一个5元组:

    $ M=(V, E, L, W_{v}, W_{e}) $

    其中, $V$代表模型中切分好的3-gram点(如(hel)), $E$代表相邻两个节点转换的边(如(hel, ell)), $L$代表图结构中每一个点和边所对应的语种$l_{i} \in L$ ($i \in \{1, 2, \cdots, K\}$). $W_{v}$和$W_{e}$代表点和边的权重.特殊的是, 在Textcat模型中, ${E}=\Phi$, ${W_e}=\Phi$.

    图 5  3-gram切分样例
    Fig. 5  An example of 3-gram

    模型初始化如下:

    $ {W}_{v} {(v, l)}= \left\{\begin{array}{ll} {W}_{v} {(v, l)}+1, &v\mbox{已初始化}\\ 1, & v\mbox{未初始化} \end{array}\right. $

    (1)

    $ {W}_{e} {(e, l)}= \left\{\begin{array}{ll} {W}_{v} {(e, l)}+1, &e\mbox{已初始化}\\ 1, &{\rm e}\mbox{未初始化} \end{array}\right. $

    (2)

    即构建语言模型时, 统计在同一种语言中点和边的出现频率.除此之外, 我们分别构造特征词集$F$和共有词集$R.$

    2.2.1   构造特征词集F

    $ \begin{align} {F}=\, &{F_1} \cup {F_2}= \nonumber \\ & \left\{ {v} | \forall {v} \in {{N_3}{t_i}} ~{\rm and} ~{v} \not \in \overline{ {N_3}{t_i} } \right\}\cup \nonumber \\ & \left\{ {e} | \forall {e} \in {{N_3}{t_i}}~ {\rm and}~ {e} \not \in \overline{ {N_3}{t_i} } \right\} \end{align} $

    (3)

    即在特征词列集$F$中, 点$v$和边$e$只属于某一语种.这种特征词一旦出现, 则说明该待测文本是特征词所属语种的概率很大, 从而提高语种识别的准确率.

    2.2.2   构造共有词集R

    $ \begin{align} R = \, &R_1 \cup R_2 = \nonumber \\ &\left\{ v | \forall{v} \in (N_{3}T_{1} \cap N_{3}T_{2} \cap \dots \cap N_{3}T_{k}) \right\} \cup \nonumber \\ & \left\{ e | \forall{e} \in (N_{3}T_{1} \cap N_{3}T_{2} \cap \dots \cap N_{3}T_{k}) \right\} \end{align} $

    (4)

    即在共有词列表中, 点$v$和边$e$在$N$个语种集中均有出现.这种共有词会干扰到语种集中所的识别效果.

    同上述模型一样, 我们需要将点和边的权重求和:

    $ sum_{i}=\sum\limits_{v \in T_{i}}W_{v} + \sum\limits_{e \in T_{i}}W_{e}, \quad i \in \left\{ 1, 2, \cdots, k \right\} $

    (5)

    首先将待识别文本与语言模型相匹配, 求得该文本在各个语言模型中的权重和; 然后, 加入优化的方法调整权重; 最后, 沿用原有模型计算相似度的方式得出相似分数.首先计算待识别文本中点和边的权重和, 如式(6):

    $ sum_{j}=\sum\limits_{v \in C_{j}}W_{v} + \sum\limits_{e \in C_{j}}W_{e}, \quad j \in \left\{ 1, 2, \cdots, k \right\} $

    (6)

    然后调整里边含有特征词的点和边的权重, 如式(7):

    $ \begin{align} sum_{j}^\prime=\,&sum_{j} -\left (\sum_{v \in C \cap F}W_{v} + \sum_{e \in C \cap F}W_{e}\right)+ \nonumber \\ &\left(\lambda_{1} \dot \sum_{v \in C \cap F}W_{v} + \lambda_{2} \dot \sum_{e \in C \cap F}W_{e}\right) \end{align} $

    (7)

    最后, 用每个模型自身相似度计算方法计算待识别文本与各个语种的相似度, 如式(8):

    $ \begin{align} &{\rm score}_{j} = F_{\rm model} \left(sum_{i}, sum_{j} \right), \nonumber \\ &{\rm model} \in \left\{ {\rm TextCat, LIGA, logLIGA }\right\} \end{align} $

    (8)

    其中, $\lambda _{1}$、$\lambda _{2}$为调整点和边权重的参数, 代表该模型下待识别文本与第$j$个语种的相似度, 是原有模型计算相似度的方法, 例如logLIGA的相似度计算方法为

    $ \begin{equation} {F_{\rm logLIGA}}({sun_{i}'}, {sum_{j}'}) = \lg \left(\frac{sum_{j}'}{sun_{i}'} \right) \end{equation} $

    (9)

    最终将最大的score所在的语种认定为待识别文本的语种:

    $ \begin{align} &{l(C)}=\max\left \{ {{\rm score}_1}, {{\rm score}_2}, \cdots, {{\rm score}_j} \right\}, \nonumber \\ &~~~~~~ {j} \in \left\{1, 2, \cdots, {K} \right \} \end{align} $

    (10)

    程序流程图如图 6所示.

    图 6  模型程序流程图
    Fig. 6  Program flow chart of the model

    本文分别选取了4个不同的推特数据集, 具体情况如表 1如示.其中, Twituser_7是Twituser_21的子集.

    表 1  四种数据集情况简介
    Table 1  Introduction to four datasets
    数据集 语种数量 文件数量 交叉验证训练集 交叉验证测试集
    Europral 21 21 000 18 900 2 100
    LIGA 6 9 066 8 160 906
    Twituser_21 21 6 356 5 721 635
    Twituser_7 7 2 970 2 673 297
    下载: 导出CSV 
    | 显示表格

    本文做了如下实验:

    模型训练:要得到最优的识别效果, 就必须找到最合理的参数.本文对式(7)中的$\lambda _{1}$、$\lambda _{2}$做主要调整.我们需要做同一参数下不同模型的效果对比, 因此我们将三个模型同时训练, 取平均效果最好的那一组参数.

    交叉验证:为了验证本文方法在同一组数据集下是否有效, 分别把每一个数据集平均分成十份, 随机抽取其中的一份作为测试集, 重复10次, 识别结果取平均值.

    鲁棒性验证:将Europarl数据集做为训练集, 分别以LIGA_dataset (即6种欧洲语言数据集)、Twituser_21、Twituse_7作为测试集.由于这三个数据集并不是Europarl的子集, 因此测试集会出现大量的集外词.通过该实验来验证加入本文方法后, 模型鲁棒性是否有提升.

    本文将Europarl作为训练集, 剩下三个数据集作为测试集, 分别测试特征词的权重从1到100、共有词权重从0.01到1在三个数据集上的效果, 用来选取最合理的参数, 如图 78所示.

    图 7  模型在LIGA数据集上特征词权重的参数选择
    Fig. 7  Parameter selection of feature words$'$ weights
    图 8  模型在LIGA数据集上共有词权重的参数选择
    Fig. 8  Parameter selection of common words$'$ weights

    以同样的方法分别在Twituser_7和Twituser_21上做了实验.实验表明, 特征词在权重为40、共有词的权重在0.9的时候效果最佳.因此选取特征词权重40和共有词权重0.9.

    同时在选择共有词权重的时候可以看出, 共有词对模型的识别率几乎没有任何影响.这是因为随着大类别语种数量增多时, 所有语种中都存在的词就很少了.在Europarl数据集中, 特征词有329 456个, 而共有词只有1 441.当训练集所包含的语言种类相似(如LIGA_dataset, 只有6种欧洲语言, 并且都属于同一种语系)时, 共有词的作用才会凸显出来.因此我们在后期工作中可以修正共有词的概念以及权重调整的方式, 来增强共有词在大类别语种数据集上的鲁棒性.

    为了验证方法的通用性, 分别将该方法运用在Textcat、LIGA和logLIGA上, 并且在4个数据集中做了10组交叉验证.同时我们与没有加入我们方法的模型进行比较.实验结果见图 9.

    图 9  模型在同数据集内交叉验证结果
    Fig. 9  The crosses validation results within the same dataset

    根据图表可以看出, 传统模型在很大程度上会受到数据量的影响, 数据量越大, 模型的识别率就越高.实验表明, 加入本文方法的模型ex_Textcat、ex_LIGA、ex_logLIGA的识别率分别比之前的模型有了显著地提升, 幅度高达6%.因此可以证明, 在训练集、测试集属于同一数据集时, 本文方法可以有效地提高模型的识别率.

    将特征词和共有词的权重设定为40和0.9, 将Europarl作为训练集, 将LIGA_dataset、Twituser_21、Twituser_7作为测试集, 通过训练集和测试集的不同来模拟出现集外词的情况, 以验证模型在加入本文方法后鲁棒性的提升.

    实验表明, 使用了本文方法后, Textcat、LIGA、logLIGA模型分别在三个数据集中有了显著的提升, 尤其是在Twituser_21的数据集上, 分别提高了10.24%、13.096%、1.951%, 大大提高了模型在不同数据集上的鲁棒性.当训练数据不充分时, Textcat、LIGA两个模型的效果就会大打折扣, 而我们的方法是增加语种之间的辨识度, 因此在数据量不足的情况下, 依然可以提升识别效果.

    此外在图 10中还可以看出, Twituser_21的数据集上的识别率要高于Twituser_7, 即在相同训练集的情况下, 增加大类别语种数量, 识别率不会降低.因此可以得出结论, 我们的方法不仅提高了不同数据集上的识别效果, 增强了模型的鲁棒性, 同时还解决了大类别语种数量增多时, 语种识别率下滑的问题.

    图 10  模型的鲁棒性验证结果
    Fig. 10  Result of model robustness

    我们还发现一些问题, 比如该方法对logLIGA模型的影响并不是很大.因为logLIGA模型是在计算完相似度后再取log, 这样提高40倍权重取完log, 只比加入本文方法前的权重高1.6倍, 并没有太显著的差异; 也正是因为加入了log平滑函数, 使模型对权重修改的敏感度大大降低, 如果继续提高权重, 则会有更显著的效果.

    数据集的改变会让传统基于n-gram语种识别模型的准确率大打折扣, 增强模型在不同数据集上的鲁棒性能让模型在实际应用中更加有效.本文提出了一种通过动态调整语种特征词和共有词权重的方式, 提升传统模型识别性能的语种识别方法.实验证明了该方法的有效性.


  • 本文责任编委 贾磊
  • 图  1  Textcat方法识别流程

    Fig.  1  Identification process of Textcat

    图  2  Textcat模型相似度计算

    Fig.  2  Similarity calculation of Textcat

    图  3  LIGA构造图模型样例

    Fig.  3  An example of the model of LIGA

    图  4  待识别文本的线性图结构

    Fig.  4  The linear structure of the text to be recognized

    图  5  3-gram切分样例

    Fig.  5  An example of 3-gram

    图  6  模型程序流程图

    Fig.  6  Program flow chart of the model

    图  7  模型在LIGA数据集上特征词权重的参数选择

    Fig.  7  Parameter selection of feature words$'$ weights

    图  8  模型在LIGA数据集上共有词权重的参数选择

    Fig.  8  Parameter selection of common words$'$ weights

    图  9  模型在同数据集内交叉验证结果

    Fig.  9  The crosses validation results within the same dataset

    图  10  模型的鲁棒性验证结果

    Fig.  10  Result of model robustness

    表  1  四种数据集情况简介

    Table  1  Introduction to four datasets

    数据集 语种数量 文件数量 交叉验证训练集 交叉验证测试集
    Europral 21 21 000 18 900 2 100
    LIGA 6 9 066 8 160 906
    Twituser_21 21 6 356 5 721 635
    Twituser_7 7 2 970 2 673 297
    下载: 导出CSV
  • [1] Cavnar W B, Trenkle J M. N-gram-based text categorization. In: Proceedings of the 3rd Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, USA, 1994. 161-175 https://www.researchgate.net/publication/2375544_N-Gram-Based_Text_Categorization
    [2] Frank Scheelen. Libtextcat. Software[Online], available: http://software.wise-guys.nl/libtextcat/, 2003.
    [3] Hammarström H. A fine-grained model for language identification. In: Proceedings of the 2007 Workshop of Improving Non English Web Searching. Amsterdam, The Netherlands: ACM, 2007. 14-20 https://www.researchgate.net/publication/290889741_A_fine-grained_model_for_language_identification
    [4] Ceylan H, Kim Y. Language identification of search engine queries. In: Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Stroudsburg, PA, USA: Association for Computational Linguistics, 2009, 2: 1066-1074 http://dl.acm.org/citation.cfm?id=1690295
    [5] Vatanen T, Väyrynen J J, Virpioja S. Language identification of short text segments with n-gram models. In: Proceedings of the 2010 International Conference on Language Resources and Evaluation. Valletta, Malta: LREC, 2010. 3423-3430 https://www.researchgate.net/publication/220746211_Language_Identification_of_Short_Text_Segments_with_N-gram_Models
    [6] Carter S, Weerkamp W, Tsagkias M. Microblog language identification:overcoming the limitations of short, unedited and idiomatic text. Language Resources and Evaluation, 2013, 47(1):195-215 doi: 10.1007/s10579-012-9195-y
    [7] Tromp E, Pechenizkiy M. Graph-based n-gram language identification on short texts. In: Proceedings of the 20th Machine Learning Conference of Belgium and the Netherlands. Hague, Netherlands, 2011. 27-34 https://www.researchgate.net/publication/292017010_Graph-Based_N-gram_Language_Identification_on_Short_Texts
    [8] Vogel J, Tresner-Kirsch D. Robust language identification in short, noisy texts: improvements to LIGA. In: Proceedings of the 3rd International Workshop on Mining Ubiquitous and Social Environments (MUSE 2012). 2012. 43-50 https://www.researchgate.net/publication/268423546_Robust_Language_Identification_in_Short_Noisy_Texts_Improvements_to_LIGA
    [9] Lui M, Baldwin T. Langid. PY: an off-the-shelf language identification tool. In: Proceedings of ACL 2012 System Demonstrations. Stroudsburg, PA, USA: Association for Computational Linguistics, 2012. 25-30 http://dl.acm.org/citation.cfm?id=2390475
    [10] 中谷秀洋. Short Text Language Detection with Infinity-Gram. 奈良先端科学技术大学院大学, 2012.
    [11] Brown R D. Selecting and weighting n-grams to identify 1100 languages. Speech, and Dialogue. Lecture Notes in Computer Science. Berlin, Heidelberg, Germany: Springer, 2013. 475-483 https://www.researchgate.net/publication/290616632_Selecting_and_Weighting_N-Grams_to_Identify_1100_Languages?ev=auth_pub
    [12] Gonzalez-Dominguez J, Lopez-Moreno I, Moreno P J, Gonzalez-Rodriguez J. Frame-by-frame language identification in short utterances using deep neural networks. Neural Networks, 2015, 64:49-58 doi: 10.1016/j.neunet.2014.08.006
    [13] Zazo R, Lozano-Diez A, Gonzalez-Dominguez J, Toledano D T, Gonzalez-Rodriguez J. Language identification in short utterances using long short-term memory (LSTM) recurrent neural networks. PLoS One, 2016, 11(1):Article No.e0146917 doi: 10.1371/journal.pone.0146917
    [14] Tkachenko M, Yamshinin A, Lyubimov N, Kotov M, Nastasenko M. Language identification using time delay neural network d-vector on short utterances. Speech and Computer. Lecture Notes in Computer Science. Cham, Germany: Springer, 2016. 443-449 doi: 10.1007%2F978-3-319-43958-7_53
    [15] Ghahabi O, Bonafonte A, Hernando J, Moreno A. Deep neural networks for i-vector language identification of short utterances in cars. In: Proceedings of INTERSPEECH 2016. San Francisco, USA: ISCA, 2016. 367-371 https://www.researchgate.net/publication/304572056_Deep_Neural_Networks_for_i-Vector_Language_Identification_of_Short_Utterances_in_Cars
    [16] Song Y, Cui R L, Hong X H, Mcloughlin I, Shi J, Dai L R. Improved language identification using deep bottleneck network. In: Proceedings of the 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). South Brisbane, QLD, Australia: IEEE, 2015. 4200-4204 http://ieeexplore.ieee.org/document/7178762/
    [17] Song Y, Hong X H, Jiang B, Cui R L, McLoughlin I, Dai L R. Deep bottleneck network based i-vector representation for language identification. In: Proceedings of INTERSPEECH 2015. Dresden, Germany: ISCA, 2015. 398-402 https://isca-speech.org/archive/interspeech_2015/i15_0398.html
    [18] Jin M, Song Y, Mcloughlin I, Dai L R, Ye Z F. LID-senone extraction via deep neural networks for end-to-end language identification. In: Proceedings of Odyssey 2016. Bilbao, Spain, 2016. 210-216 https://www.researchgate.net/publication/305685321_LID-senone_Extraction_via_Deep_Neural_Networks_for_End-to-End_Language_Identification
    [19] 单煜翔, 邓妍, 刘加.一种联合语种识别的新型大词汇量连续语音识别算法.自动化学报, 2012, 38(3):366-374 http://www.aas.net.cn/CN/abstract/abstract17687.shtml

    Shan Yu-Xiang, Deng Yan, Liu Jia. A novel large vocabulary continuous speech recognition algorithm combined with language recognition. Acta Automatica Sinica, 2012, 38(3):366-374 http://www.aas.net.cn/CN/abstract/abstract17687.shtml
    [20] 杨绪魁, 屈丹, 张文林.正交拉普拉斯语种识别方法.自动化学报, 2014, 40(8):1812-1818 http://www.aas.net.cn/CN/abstract/abstract18448.shtml

    Yang Xu-Kui, Qu Dan, Zhang Wen-Lin. An orthogonal Laplacian language recognition approach. Acta Automatica Sinica, 2014, 40(8):1812-1818 http://www.aas.net.cn/CN/abstract/abstract18448.shtml
    [21] 徐嘉明, 张卫强, 杨登舟, 刘加, 夏善红.基于流形正则化极限学习机的语种识别系统.自动化学报, 2015, 41(9):1680-1685 http://www.aas.net.cn/CN/abstract/abstract18741.shtml

    Xu Jia-Ming, Zhang Wei-Qiang, Yang Deng-Zhou, Liu Jia, Xia Shan-Hong. Manifold regularized extreme learning machine for language recognition. Acta Automatica Sinica, 2015, 41(9):1680-1685 http://www.aas.net.cn/CN/abstract/abstract18741.shtml
    [22] Zubiaga A, Vicente I S, Gamallo P, Pichel J R, Alegria I, Aranberri N, Ezeiza A, Fresno V. TweetLID:a benchmark for tweet language identification. Language Resources and Evaluation, 2016, 50(4):729-766 doi: 10.1007/s10579-015-9317-4
    [23] Kalimeri M, Constantoudis V, Papadimitriou C, Karamanos K, Diakonos F K, Papageorgiou H. Word-length entropies and correlations of natural language written texts. Journal of Quantitative Linguistics, 2015, 22(2):101-118 doi: 10.1080/09296174.2014.1001636
    [24] Baldwin T, Lui M. Language identification: the long and the short of the matter. In: Human Language Technologies: the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2010. 229-237 http://dl.acm.org/citation.cfm?id=1857999.1858026
    [25] Lui M, Baldwin T. Accurate language identification of twitter messages. In: Proceedings of the 5th Workshop on Language Analysis for Social Media (LASM). Gothenburg, Sweden: Association for Computational Linguistics, 2014. 17-25 https://www.researchgate.net/publication/267448202_Accurate_Language_Identification_of_Twitter_Messages
    [26] Koehn P. Europarl: a parallel corpus for statistical machine translation. Proceedings of the 3rd Workshop on Statistical Machine Translation, 2005. 3-4 http://www.researchgate.net/publication/228379274_Europarl_A_parallel_corpus_for_statistical_machine_translation
  • 期刊类型引用(6)

    1. 刘宣,季铎,滕超越. 基于TI- FastText的拼音维语识别方法. 中国人民公安大学学报(自然科学版). 2024(01): 66-73 . 百度学术
    2. 王志敏行,邓士光,徐云龙,段鹏飞,李婉婷. 语音识别在核电厂控制室中的应用研究. 自动化仪表. 2023(S1): 259-262+267 . 百度学术
    3. 张琳琳,杨雅婷,陈沾衡,潘一荣,李毓. 基于深度学习的相似语言短文本的语种识别方法. 计算机应用与软件. 2020(02): 124-129+176 . 百度学术
    4. 梁春燕,曹伟. 基于邻域保持嵌入算法的语种识别. 陕西师范大学学报(自然科学版). 2020(02): 38-42 . 百度学术
    5. 伊克拉木·伊力哈木,艾山·吾买尔,王路路,麦麦提依明·巴吾顿. 面向大数据短文本的高并发语种识别系统的设计与实现. 现代计算机. 2020(20): 7-13 . 百度学术
    6. 叶俊民,罗达雄,陈曙. 基于短文本情感增强的在线学习者成绩预测方法. 自动化学报. 2020(09): 1927-1940 . 本站查看

    其他类型引用(12)

  • 加载中
  • 图(10) / 表(1)
    计量
    • 文章访问数:  2542
    • HTML全文浏览量:  466
    • PDF下载量:  1065
    • 被引次数: 18
    出版历程
    • 收稿日期:  2016-12-07
    • 录用日期:  2017-05-11
    • 刊出日期:  2018-03-20

    目录

    /

    返回文章
    返回