神经机器翻译的优化
在神经机器翻译中利用源端单语数据
通过两种策略充分利用神经机器翻译(NMT)中的源端单语数据。第一种方法,采用自学习算法生成用于NMT训练的大规模合成平行数据。首先使用给定的双语数据构建基准机器翻译系统,然后通过该系统翻译源侧单语句子以获取更多的合成平行数据。第二种方法,使用2个NMT的多任务学习框架同时预测翻译和源侧单语句子的重新排序。将多任务学习框架应用于预测目标翻译和重新排序的源侧句子。2个NMT共享相同的编码器网络,以增强编码器模型。发现,相关性是关键,更多的单语数据并不总是提高翻译质量。
对偶学习用于机器翻译
对偶学习扩展了双语翻译方法,将神经机器翻译系统在两个翻译方向上训练,利用两个模型提供的回译数据进行多轮训练。该策略在无监督翻译系统构建中也表现出成功。通过强化学习在未标记数据中自动学习,对偶学习机制有效利用单语语料,减少了对平行双语数据的需求。
利用大规模单语数据进行机器翻译
提出了一种策略,通过三个步骤,同时利用源端和目标端的单语数据,取得更好的翻译效果。实证观察表明,同时使用源端和目标端单语数据优于只使用一个领域的单语数据。向大型合成bitext添加噪声能提高NMT的准确性,通过噪声训练获得的模型进一步提高精确度。该方法在多个新闻数据集上取得了最先进的结果。
将BERT纳入神经机器翻译
Bert-fuse模型通过将BERT处理的表示与NMT模型的编码器和解码器进行融合,提高翻译质量。使用Transformer架构,采用预训练的BERT初始化NMT模型,或作为输入,以改进翻译性能。通过这些方法,BERT的融入增强了神经机器翻译的性能。
数据多样化:神经机器翻译的简单策略
数据多样化策略在向后和正向翻译任务上训练多个模型,生成一组合成训练数据,以扩充原始数据集。这是一种真正的数据增强方法,牺牲困惑度以获得更好的BLEU得分,有效提高翻译质量。
用单语言数据改进神经机器翻译模型
提供带有空源句的单语训练样本,或通过将目标句自动翻译成源语生成合成源语,称为回译。少量域内单语数据反向翻译可进行有效域自适应,减少过拟合,提高流畅度。这是单语数据训练有效的原因。
神经机器翻译的半监督学习
通过自编码器重建单词语料库,使用半监督学习方法在给定的有标签和无标签数据上联合训练源到目标和目标到源翻译模型。核心思想是在训练目标上附加一个重构术语,以利用自编码来重构观察到的单语语料。使用自编码器在单语语料上训练无监督模型,能够利用小批量随机梯度下降来训练联合模型。
无监督神经机器翻译
完全消除对并行数据的依赖,仅依赖单语言语料库。通过修改的注意编解码器模型,结合去噪和反向翻译策略,实现无监督训练。将无监督跨语言嵌入的工作集成到改进的注意力编码器-解码器模型中,利用固定跨语言嵌入的共享编码器,仅从单语语料库中训练系统。
多重随机标签