Skip to content
星际流动

AI Planning Framework:用传统规划范式诊断 LLM Web Agent

发布
采集
学术前沿 6.5 分 — 提出分类框架+新数据集,学术研究贡献,但实用价值偏理论
原文: arXiv

评分 6.5 · 来源:arXiv · 发布于 2026-03-13

评分依据:提出分类框架+新数据集,学术研究贡献,但实用价值偏理论

要点

论文将 Web 任务形式化为序列决策过程,提出分类法将现代 Agent 架构映射到传统规划范式:Step-by-Step Agent → 广度优先搜索(BFS),Tree Search Agent → Best-First 树搜索,Full-Plan-in-Advance Agent → 深度优先搜索(DFS)。

这一框架允许原则性诊断系统失败,如上下文漂移和不连贯的任务分解。论文提出 5 个新评估指标,评估轨迹质量而非简单成功率,并提供 794 条来自 WebArena 基准的人类标注轨迹数据集。

实验对比 Step-by-Step 基线与新实现的 Full-Plan-in-Advance Agent:Step-by-Step 与人类黄金轨迹对齐度更高(38% 总体成功率),但 Full-Plan-in-Advance 在技术指标如元素准确率上表现更优(89%)。结果表明,根据具体应用约束选择合适 Agent 架构时,提出的指标是必要的。

🤖 AI 点评

这是少见的”把 LLM Agent 拉回计算机科学基础”的尝试。将黑盒 Agent 映射到经典搜索算法,让失败模式变得可诊断——这对工程化部署很重要。但 38% 的成功率和 89% 的元素准确率之间的鸿沟,暴露了一个尴尬事实:技术上”做对了”不等于”完成了任务”。数据集是亮点,但论文整体偏学术。


标签: