评分 6 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22
评分依据:两阶段反思内化算法将显式推理轨迹内化到MT模型,保持翻译质量的同时大幅降低推理成本
背景
现有LRM(Large Reasoning Model)应用于机器翻译主要采用”先思考后翻译”范式。虽然显式推理轨迹提升翻译质量,但推理成本和延迟过高。
ReflectMT 方案
两阶段反思内化算法:
- Stage 1:学习如何反思(从推理轨迹中提取反思知识)
- Stage 2:将反思知识内化到MT模型参数中
效果
- 保持接近推理模型的翻译质量
- 推理成本大幅降低(无需显式推理链)
- 可推广到其他需要推理的生成任务
启发
为”思考→内化→高效执行”的范式提供了成功案例,对推理模型落地有参考价值。