Mind the Unseen Mass: Unmasking LLM Hallucinations via Soft-Hybrid Alphabet Estimation

发布

2026年04月22日

采集 2026年04月22日 06:31

学术前沿 6.0 分 — 通过估计语义字母表大小作为黑盒不确定性代理指标，理论上有新意的方法论贡献

评分 6 · 来源：cs.CL updates on arXiv.org · 发布于 2026-04-22

评分依据：通过估计语义字母表大小作为黑盒不确定性代理指标，理论上有新意的方法论贡献

核心思想

在黑盒访问且仅有少量采样条件下，估计有效语义字母表大小（即采样响应中表达的不同含义的数量）可作为下游风险的有用代理指标。

传统频率估计倾向于低估罕见语义模式。本文提出的Soft-Hybrid估计量能更好地捕捉尾部语义分布。

理论贡献大于即插即用的工程方案，需要进一步工程化才能落地。