评分 7.0 · 来源:cs.CL updates on arXiv.org · 发布于 2026-03-27
评分依据:挑战「只输出一个最佳答案」的训练范式,对医疗、法律等不确定性高的应用场景有重要价值
要点
当前 LLM 后训练通常将分布坍缩为单一主导模式,这适用于只有一个正确答案的基准测试,但在医疗诊断、歧义问答等真实场景中限制了模型能力。论文提出用 RL 训练模型保持并表达多答案分布。
🤖 AI 点评
「模型应该给出唯一确定答案」是一个危险的假设,尤其在医疗、法律等高风险领域。保持分布输出不是模型缺陷,而是对不确定性的诚实表达。这项工作的思路与 confidence-uncertainty 分离研究一脉相承。