Backtranslation Augmented Direct Preference Optimization for Neural Machine Translation

发布

2026年04月29日

采集 2026年04月29日 06:31

工程实践 4.5 分 — 回译增强 DPO 用于 NMT 后训练，仅需单语语料和人工翻译器

原文： arXiv cs.CL

评分 4.5 · 来源：arXiv cs.CL · 发布于 2026-04-29

评分依据：回译增强 DPO 用于 NMT 后训练，仅需单语语料和人工翻译器

NMT 系统几乎全构建于监督平行数据训练，但仍有持续翻译错误。本文提出基于 RL 的后训练范式，仅需一般文本语料和人工翻译器即可纠正错误。

标签：

FED-FSTQ: Fisher-Guided Token Quantization for Communication-Efficient Federated Fine-Tuning of LLMs on Edge Devices

Dual-Track CoT: Budget-Aware Stepwise Guidance for Small LMs