[文献阅读]—Explicit Cross-lingual Pre-training for Unsupervised Machine Translation

前言论文地址：https://aclanthology.org/D19-1071.pdf代码地址：https://github.com/Imagist-Shuo/CMLM(空)前人工作&存在问题初始化对UNMT很重要，最近的预训练模型基于共享的BPE，以一种不显式、局限的方式学习跨语言信息，具体表现在：以BPE为单位的预训练完成了BPE级别的对齐，n-gram可能不对齐不同语种的BPE共享

Muasci

764人浏览 · 2021-11-27 14:29:01

Muasci · 2021-11-27 14:29:01 发布

前言

论文地址：https://aclanthology.org/D19-1071.pdf
代码地址：https://github.com/Imagist-Shuo/CMLM(空)

前人工作&存在问题

初始化对UNMT很重要，最近的预训练模型基于共享的BPE，以一种不显式、局限的方式学习跨语言信息，具体表现在：

以BPE为单位的预训练完成了BPE级别的对齐，n-gram可能不对齐
不同语种的BPE共享情况不同

本文贡献

使用外部的n-gram对齐工具创建n-gram对齐table；使用mask n-gram并预测对应翻译的预训练方法显式加强跨语言信息；使用IBM模型解决预测对应翻译长度不对等的损失函数问题。

具体方法

第一步：n-gram对齐表的构建

首先使用fastText分别获取语种X和语种Y的n-gram及其embedding；
然后用vecmap做n-gram的对齐，利用图1中的度量，为语种X中的最常见n-gram，找到top-k个候选翻译，完成对齐表的构建。

在这里插入图片描述

图1 相似度度量

隐含的第二步：

对X+Y学习共享的BPE，也用vecmap对BPE做对齐（？）

第二步：Cross-lingual Masked Language Model(CMLM)

文中说“in CMLM, we sample 15% BPE n-grams”，这和我的理解产生的冲突。我认为是随机挑选存在于词表中的source n-gram，直到覆盖了15%的BPE。再对70%的BPE做mask。
对于每一个masked source n-gram $x_1^l$ ，和它对应的target n-gram $y_1^m$ ，单步的损失函数如下：