Tag: 评估基准
All the articles with the tag "评估基准".
- 8.0
LLM 与 Deep Research Agent 的引用幻觉检测与修正:3-13% 引用 URL 为捏造
系统性评估 10 个模型和 Agent 的引用可靠性,发现 3-13% 的引用 URL 为幻觉(从未存在),Deep Research Agent 生成更多幻觉但修正率也更高。
- 8.0
Beyond Isolated Tasks:评估编码 Agent 在连续软件演化中的表现
提出 SWE-STEPS 基准,将编码 Agent 评估从单次 PR 扩展到连续开发流程,揭示 Agent 在长期代码变更累积和技术债增长下面临的新挑战。
- 7.7
AgentHazard:首个 Computer-Use Agent 有害行为评估基准
提出首个系统性评估计算机使用 Agent 有害行为的基准,关注局部合理步骤如何串联为全局有害行为的新安全挑战。