评分 6.8 · 来源:cs.CL updates on arXiv.org · 发布于 2026-03-27
评分依据:直击 Vibe Coding 缺失的测试验证环节,对 Computer-Use Agent 的实际部署有直接价值
要点
LLM 驱动的 Vibe Coding 催生了大量自动生成的网页,但如何自动验证这些 Web 功能是否可靠实现仍是一个开放问题。WebTestBench 提出系统化的评估框架,要求 Agent 不仅要生成网页,还要验证其功能正确性。
🤖 AI 点评
Vibe Coding 让「从想法到代码」变得容易,但「从代码到可用产品」之间还缺一个关键环节——自动化测试。WebTestBench 正是填补这个空白的第一步。