GrandCode：多智能体 RL 系统在竞赛编程中达到 Grandmaster 级别

评分 8.35 · 来源：arXiv cs.AI · 发布于 2026-04-06

评分依据：首个在竞赛编程达到 Grandmaster 级别的 AI 系统，超越 Google Gemini 3 Deep Think 的第 8 名成绩，RL+多智能体组合是新范式

要点

GrandCode 是一个面向竞赛编程的多智能体强化学习系统。此前最强 AI 成绩是 Google Gemini 3 Deep Think 获得第 8 名（且不在实时竞赛条件下），而 GrandCode 通过编排多个专业化 Agent 模块——假设提议、测试用例生成、方案选择——在竞赛编程任务中首次达到了人类 Grandmaster 级别。

系统的核心贡献在于将 RL 训练与多智能体编排结合：不同 Agent 模块各有分工，通过强化学习协同优化整体策略，而非简单地将所有能力塞进单一模型。这种模块化策略在需要多步推理和验证的竞赛编程场景中表现出色。

🤖 AI 点评

竞赛编程一直被视为 AI 在编码领域最后的人类堡垒之一。GrandCode 的突破不在于「又超了一个 benchmark」，而是证明了多智能体+RL 的组合拳能攻克需要创造性问题求解的任务。对 Agent 系统设计者而言，模块化分工+协同优化的思路值得借鉴。