Google：让 AI Agent 在对抗中学会合作

评分 7.7 · 来源：VentureBeat · 发布于 2026-03-19

评分依据：提出反直觉的训练范式：对抗训练产生合作，有理论支撑和实验验证

要点

Google Paradigms of Intelligence 团队发现：让 Agent 对抗多样化对手池（混合学习型和规则型）训练，无需硬编码协作规则即可涌现稳定合作行为。核心机制是 in-context learning——Agent 通过交互历史实时推断对手策略并调整行为。

传统多智能体强化学习（MARL）的困境是”互相背叛”（mutual defection）：每个 Agent 优化自身奖励导致全局次优，如价格算法的竞底螺旋。Google 的方法反其道行之：暴露 Agent 给不可预测的对手，迫使其学会适应而非对抗。

在囚徒困境（IPD）基准测试中，给 Agent 零对手信息、纯靠试错探索时，反而表现最好。研究者称这桥接了 MARL 和基础模型训练范式，为企业多 Agent 部署提供可扩展路径。

这项研究挑战了”协作需要显式设计”的假设。LangGraph/CrewAI 等框架要求开发者手绘状态机定义协作逻辑，而 Google 证明：把 Agent 扔进足够混乱的环境，协作会自然涌现。开发者角色从”规则编写者”变为”训练环境架构师”——这是从微观管理到宏观治理的范式转变。