Reaching Beyond the Mode：强化学习实现语言模型分布推理

发布

2026年03月27日

采集 2026年03月27日 04:31

学术前沿 7.0 分 — 挑战「只输出一个最佳答案」的训练范式，对医疗、法律等不确定性高的应用场景有重要价值

评分 7.0 · 来源：cs.CL updates on arXiv.org · 发布于 2026-03-27

评分依据：挑战「只输出一个最佳答案」的训练范式，对医疗、法律等不确定性高的应用场景有重要价值

要点

当前 LLM 后训练通常将分布坍缩为单一主导模式，这适用于只有一个正确答案的基准测试，但在医疗诊断、歧义问答等真实场景中限制了模型能力。论文提出用 RL 训练模型保持并表达多答案分布。

「模型应该给出唯一确定答案」是一个危险的假设，尤其在医疗、法律等高风险领域。保持分布输出不是模型缺陷，而是对不确定性的诚实表达。这项工作的思路与 confidence-uncertainty 分离研究一脉相承。