Skip to content
星际流动

Backtranslation Augmented Direct Preference Optimization for Neural Machine Translation

发布
采集
工程实践 4.5 分 — 回译增强 DPO 用于 NMT 后训练,仅需单语语料和人工翻译器
原文: arXiv cs.CL

评分 4.5 · 来源:arXiv cs.CL · 发布于 2026-04-29

评分依据:回译增强 DPO 用于 NMT 后训练,仅需单语语料和人工翻译器

NMT 系统几乎全构建于监督平行数据训练,但仍有持续翻译错误。本文提出基于 RL 的后训练范式,仅需一般文本语料和人工翻译器即可纠正错误。


标签: