基于深度迁移学习的多语种NLP技术原理和实践

发布时间：2020-07-01 10:16:58 所属栏目：大数据来源：站长网

导读：副标题#e# 全球存在着几千种语言，这就对NLP研究者带来了巨大的难题，因为在一个语种上训练的模型往往在另外一个语种上完全无效，而且目前的NLP研究以英语为主，很多其他语种上面临着标注语料严重不足的困境。在跨语种NLP研究方面，业界已经做了不少研究，

XLM中这种升级版的MLM模型被称作TLM(Translation Language Model, 翻译语言模型)。XLM在预训练时同时训练了MLM和TLM，并且在两者之间进行交替训练，这种训练方式能够更好的学习到不同语种的token之间的关联关系。在跨语种分类任务（XNLI）上XLM比其他模型取得了更好的效果，并且显著提升了有监督和无监督的机器翻译效果。

五、XLMR

XLMR（XLM-RoBERTa）同是Facebook的研究成果，它融合了更多的语种更大的数据量(包括缺乏标签的的低资源语言和未标记的数据集)，改进了以前的多语言方法Multilingual BERT,进一步提升了跨语言理解的性能。同BERT一样，XLMR使用transformer作为编码器，预训练任务为MLM。XLMR主要的优化点有三个：

a. 在XLM和RoBERTa中使用的跨语言方法的基础上，增加了语言数量和训练集的规模，用超过2TB的已经过处理的CommonCrawl 数据以自我监督的方式训练跨语言表示。这包括为低资源语言生成新的未标记语料库，并将用于这些语言的训练数据量扩大两个数量级。下图是用于XLM的Wiki语料库和用于XLMR的CommonCrawl语料库中出现的88种语言的数据量，可以看到CommonCrawl数据量更大，尤其是对于低资源语种。

基于深度迁移学习的多语种NLP技术原理和实践

b. 在fine-tuning阶段，利用多语言模型的能力来使用多种语言的标记数据，以改进下游任务的性能。使得模型能够在跨语言基准测试中获得state-of-the-art的结果。

c. 使用跨语言迁移来将模型扩展到更多的语言时限制了模型理解每种语言的能力，XLMR调整了模型的参数以抵消这种缺陷。XLMR的参数更改包括在训练和词汇构建过程中对低资源语言进行上采样，生成更大的共享词汇表，以及将整体模型容量增加到5.5亿参数。

XLMR在多个跨语言理解基准测试中取得了SOTA的效果，相较于Multilingual BERT，在XNLI数据集上的平均准确率提高了13.8%，在MLQA数据集上的平均F1得分提高了12.3%，在NER数据集上的平均F1得分提高了2.1%。XLMR在低资源语种上的提升更为明显，相对于XLM，在XNLI数据集上，斯瓦希里语提升了11.8%，乌尔都语提升了9.2%。

六、百分点在实际业务数据上的实验结果

先明确两个概念，单语种任务：训练集和测试集为相同语种，跨语种任务：训练集和测试集为不同语种。

6.1 主题分类任务上效果

主题分类是判断一段文本是属于政治、军事等10个类别中哪一个。实验中分别使用XLMR和Multilingual BERT在1w的英语数据上进行训练，然后在英语、法语、泰语各1万的数据上进行测试。可以看到无论是单语种任务还是跨语种任务上，XLMR的效果都优于Multilingual BERT，跨语种任务上的优势更明显。

6.2 情感分类任务上的效果

情感分类任务是判断一段文本所表达的情感是正面、负面或中立。实验中分别对XLMR和BERT做了单语种任务的对比和跨语种任务的对比，可以看到在单语种任务中BERT和XLMR的效果差别不明显，而在跨语种任务中XLMR明显优于Multilingual BERT。

6.3 NER任务上的效果

NER任务是抽取一段文本中实体，实体包括人名、地名、机构名。在该实验中，XLMR表现一般，不管是单语种任务还是跨语种任务上，效果比Multilingual BERT要略差一些。

七、内容总结

Multilingual BERT使用特征抽取能力更强的transformer作为编码器，通过MLM和NSP在超过100种语言上进行预训练，但它的模型本身并没有针对多语种进行过多优化。而XLM对Multilingual BERT进行了优化，主要是增加了TML预训练任务，使模型能学习到多语种token之间的关联关系。XLMR结合了XLM和RoBERTa的优势，采用了更大的训练集，并且对低资源语种进行了优化，在XNLI、NER CoNLL-2003、跨语种问答MLQA等任务上，效果均优于Multilingual BERT，尤其是在Swahili、Urdu等低资源语种上效果提升显著。

在百分点实际业务数据的测试中，目前已经在英语、法语、阿语等常规语种上进行测试，无论是单语种任务还是跨语种任务，整体来看XLMR的效果要优于Multilingual BERT。想要实现在一种语种上进行模型训练，然后直接在另外一种语种上进行预测这样的跨语种迁移，仍需要相关领域进一步深入的探索。

Google近期发布了一个用于测试模型跨语种性能的基准测试Xtreme，包括了对12种语言家族的40种语言进行句子分类、句子检索、问答等9项任务。在Xtreme的实验中，先进的多语言模型如XLMR在大多数现有的英语任务中已达到或接近人类的水平，但在其它语言尤其是非拉丁语言的表现上仍然存在巨大差距。这也表明，跨语言迁移的研究潜力很大。不过随着Xtreme的发布，跨语种NLP的研究肯定也会加速，一些激动人心的模型也会不断出现，让我们共同期待。

（编辑：源码网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

在云中实施大数据的详	未来大数据时代下的智
到底什么是B端产品的用	为了不emo，我将自己培