评分依据:Agent控制领域的大规模benchmark:20个环境1671个正式任务+184个安全破坏任务。是目前最大最多样的软件工程控制评估平台。
LinuxArena: A Control Setting for AI Agents in Live Production Software Environments
原文: arxiv.org
评分依据:Agent控制领域的大规模benchmark:20个环境1671个正式任务+184个安全破坏任务。是目前最大最多样的软件工程控制评估平台。