评分 7.35 · 来源:arXiv cs.AI · 发布于 2026-04-06
评分依据:将 GUI Agent 从模仿学习转向交互物理学习的思路新颖,解决数据瓶颈的自监督方案有实用价值
要点
GUI Agent 训练面临数据瓶颈:人类演示成本高昂,合成教师监督存在蒸馏天花板。UI-Oceanus 转变思路,让 Agent 学习「交互物理」——即操作后界面状态如何变化——而非简单模仿轨迹。
通过正向动力学预测(预测未来界面状态),Agent 可以从大量自监督交互中学习,无需人工标注。这种范式从「模仿人类怎么做」转向「理解操作会怎样」,具有更好的扩展性。
🤖 AI 点评
GUI Agent 的数据问题一直是个瓶颈。UI-Oceanus 的思路有点像从监督学习到自监督学习的范式转变——与其费力标注更多演示,不如让 Agent 自己探索交互的因果关系。