Skip to content
星际流动

LLM 与 Deep Research Agent 的引用幻觉检测与修正:3-13% 引用 URL 为捏造

发布
采集
学术前沿 8.0 分 — 首次大规模系统性评估 LLM 和 Deep Research Agent 的引用 URL 幻觉问题,53K+URL 样本,结论直接指导工具使用策略
原文: arXiv cs.CL

评分 8.0 · 来源:arXiv cs.CL · 发布于 2026-04-06

评分依据:首次大规模系统性评估 LLM 和 Deep Research Agent 的引用 URL 幻觉问题,53K+URL 样本,结论直接指导工具使用策略

要点

研究团队使用 DRBench(53,090 个 URL)和 ExpertQA(168,021 个 URL,覆盖 32 个学术领域)对 10 个模型和 Agent 进行了系统性引用可靠性评估。核心发现:3-13% 的引用 URL 是幻觉——它们在 Wayback Machine 中没有记录,很可能从未存在。总体 5-18% 的 URL 无法解析。

有趣的是,Deep Research Agent 生成的幻觉引用数量更多,但同时修正率也更高。研究还提出了检测和修正引用幻觉的方法,并开源了评估工具。

🤖 AI 点评

对依赖 AI 做文献调研的研究者来说,这个 3-13% 的幻觉率是一个不容忽视的数字。如果你在用 Deep Research Agent 写论文,记得逐条验证引用——AI 给出的 URL 看起来完全合理,但可能根本不存在。


标签: