Skip to content
星际流动

Inside VAKRA: Reasoning, Tool Use, and Failure Modes of Agents

发布
采集
行业动态 7.0 分 — IBM Research 深度剖析 VAKRA Agent 基准测试,揭示推理和工具调用的失败模式,对 Agent 研究者有较高参考价值
原文: huggingface.co

评分 7 · 来源: · 发布于 2026-04-15

评分依据:IBM Research 深度剖析 VAKRA Agent 基准测试,揭示推理和工具调用的失败模式,对 Agent 研究者有较高参考价值