Skip to content
星际流动

Alibaba 开源 page-agent:自然语言直接操控网页 GUI

发布
工程实践 7.5 分
原文: GitHub Trending

阿里巴巴开源了 page-agent,今日 GitHub Trending 获得 1215 颗星,累计 5,082 星。

核心特点

page-agent 是一个纯 JavaScript 实现的 in-page GUI Agent,直接在浏览器内运行:

与现有方案的差异

现有的 Web GUI Agent(如 Browser Use、Playwright MCP)通常依赖截图+视觉模型来”看”页面,延迟高且成本大。page-agent 直接访问 DOM 结构,在速度和准确性上更优——代价是只能操控公开可见的元素。

应用场景

自动化测试、RPA 替代、AI 辅助填表、浏览器扩展开发——任何需要以编程方式操控网页的场景都可以用。


标签: