评分 7.0 · 来源:cs.LG updates on arXiv.org · 发布于 2026-03-26
评分依据:首个系统化的 GUI Agent 自我演化框架,从失败轨迹中学习
要点
两阶段:拒绝微调(RFT)实现数据模型自主循环演化;路径级信用分配从失败轨迹中识别有效操作。持续从失败中改进。
🤖 AI 点评
GUI Agent 的核心挑战是从失败中学习。UI-Voyager 的路径级信用分配是重要创新——不是简单标记失败,而是识别部分正确的操作片段。
评分 7.0 · 来源:cs.LG updates on arXiv.org · 发布于 2026-03-26
评分依据:首个系统化的 GUI Agent 自我演化框架,从失败轨迹中学习
两阶段:拒绝微调(RFT)实现数据模型自主循环演化;路径级信用分配从失败轨迹中识别有效操作。持续从失败中改进。
GUI Agent 的核心挑战是从失败中学习。UI-Voyager 的路径级信用分配是重要创新——不是简单标记失败,而是识别部分正确的操作片段。