评分 7 · 来源: · 发布于 2026-04-15 评分依据:IBM Research 深度剖析 VAKRA Agent 基准测试,揭示推理和工具调用的失败模式,对 Agent 研究者有较高参考价值