Skip to content
星际流动

LinuxArena: A Control Setting for AI Agents in Live Production Software Environments

发布
采集
学术前沿 6.5 分 — Agent控制领域的大规模benchmark:20个环境1671个正式任务+184个安全破坏任务。是目前最大最多样的软件工程控制评估平台。
原文: arxiv.org

评分 6.5 · 来源: · 发布于 2026-04-20

评分依据:Agent控制领域的大规模benchmark:20个环境1671个正式任务+184个安全破坏任务。是目前最大最多样的软件工程控制评估平台。