评分 4.5 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:回译增强 DPO 用于 NMT 后训练,仅需单语语料和人工翻译器
NMT 系统几乎全构建于监督平行数据训练,但仍有持续翻译错误。本文提出基于 RL 的后训练范式,仅需一般文本语料和人工翻译器即可纠正错误。
评分 4.5 · 来源:arXiv cs.CL · 发布于 2026-04-29
评分依据:回译增强 DPO 用于 NMT 后训练,仅需单语语料和人工翻译器
NMT 系统几乎全构建于监督平行数据训练,但仍有持续翻译错误。本文提出基于 RL 的后训练范式,仅需一般文本语料和人工翻译器即可纠正错误。