All the articles with the tag "不确定性".
用 RL 训练语言模型输出多答案分布而非单一最优答案,解决当前模型在医疗诊断等不确定性场景的局限性。
揭示自蒸馏导致推理退化根因——认知不确定性表达的系统性抑制