WebTestBench：面向端到端自动 Web 测试的 Computer-Use Agent 评估

发布

2026年03月27日

采集 2026年03月27日 04:31

工程实践 6.8 分 — 直击 Vibe Coding 缺失的测试验证环节，对 Computer-Use Agent 的实际部署有直接价值

评分 6.8 · 来源：cs.CL updates on arXiv.org · 发布于 2026-03-27

评分依据：直击 Vibe Coding 缺失的测试验证环节，对 Computer-Use Agent 的实际部署有直接价值

要点

LLM 驱动的 Vibe Coding 催生了大量自动生成的网页，但如何自动验证这些 Web 功能是否可靠实现仍是一个开放问题。WebTestBench 提出系统化的评估框架，要求 Agent 不仅要生成网页，还要验证其功能正确性。

Vibe Coding 让「从想法到代码」变得容易，但「从代码到可用产品」之间还缺一个关键环节——自动化测试。WebTestBench 正是填补这个空白的第一步。