评分 8.35 · 来源:arXiv cs.AI · 发布于 2026-04-06
评分依据:首个在竞赛编程达到 Grandmaster 级别的 AI 系统,超越 Google Gemini 3 Deep Think 的第 8 名成绩,RL+多智能体组合是新范式
要点
GrandCode 是一个面向竞赛编程的多智能体强化学习系统。此前最强 AI 成绩是 Google Gemini 3 Deep Think 获得第 8 名(且不在实时竞赛条件下),而 GrandCode 通过编排多个专业化 Agent 模块——假设提议、测试用例生成、方案选择——在竞赛编程任务中首次达到了人类 Grandmaster 级别。
系统的核心贡献在于将 RL 训练与多智能体编排结合:不同 Agent 模块各有分工,通过强化学习协同优化整体策略,而非简单地将所有能力塞进单一模型。这种模块化策略在需要多步推理和验证的竞赛编程场景中表现出色。
🤖 AI 点评
竞赛编程一直被视为 AI 在编码领域最后的人类堡垒之一。GrandCode 的突破不在于「又超了一个 benchmark」,而是证明了多智能体+RL 的组合拳能攻克需要创造性问题求解的任务。对 Agent 系统设计者而言,模块化分工+协同优化的思路值得借鉴。