评分 6 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22
评分依据:通过估计语义字母表大小作为黑盒不确定性代理指标,理论上有新意的方法论贡献
核心思想
在黑盒访问且仅有少量采样条件下,估计有效语义字母表大小(即采样响应中表达的不同含义的数量)可作为下游风险的有用代理指标。
方法创新
传统频率估计倾向于低估罕见语义模式。本文提出的Soft-Hybrid估计量能更好地捕捉尾部语义分布。
应用场景
- 黑盒LLM API的不确定性检测
- 幻觉风险的事前预警
- 多样性不足的质量诊断
局限性
理论贡献大于即插即用的工程方案,需要进一步工程化才能落地。