评分 8 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-22
评分依据:仅需单次生成即可实现推理LLM的无监督置信度校准,无需标签或重复采样。实用性极强的校准方法
校准困境
推理模型能解决越来越复杂的任务,但难以产生校准良好的置信度估计。现有方法通常依赖:
- 标签(很多场景没有)
- 推理时重复采样(成本高昂)
本文方案
单次生成即可校准:
- 无需标签
- 无需重复采样
- 仅利用单次推理过程的内部信号
为什么重要
使置信度校准在实际部署中变得可行:
- API调用场景(无法控制采样次数)
- 成本敏感场景(无法承受多次采样)
- 实时系统(延迟约束)
这是校准方法走向落地的关键一步。