Tag: 评估基准

All the articles with the tag "评估基准".

8.0
LLM 与 Deep Research Agent 的引用幻觉检测与修正：3-13% 引用 URL 为捏造
2026年04月06日
· arXiv cs.CL· 04/06 12:33 采集
系统性评估 10 个模型和 Agent 的引用可靠性，发现 3-13% 的引用 URL 为幻觉（从未存在），Deep Research Agent 生成更多幻觉但修正率也更高。
8.0
Beyond Isolated Tasks：评估编码 Agent 在连续软件演化中的表现
2026年04月06日
· arXiv cs.AI· 04/06 12:33 采集
提出 SWE-STEPS 基准，将编码 Agent 评估从单次 PR 扩展到连续开发流程，揭示 Agent 在长期代码变更累积和技术债增长下面临的新挑战。
7.7
AgentHazard：首个 Computer-Use Agent 有害行为评估基准
2026年04月06日
· arXiv cs.AI· 04/06 12:33 采集
提出首个系统性评估计算机使用 Agent 有害行为的基准，关注局部合理步骤如何串联为全局有害行为的新安全挑战。

LLM 与 Deep Research Agent 的引用幻觉检测与修正：3-13% 引用 URL 为捏造