Skip to content
星际流动

Google:让 AI Agent 在对抗中学会合作

发布
采集
学术前沿 7.7 分 — 提出反直觉的训练范式:对抗训练产生合作,有理论支撑和实验验证
原文: VentureBeat

评分 7.7 · 来源:VentureBeat · 发布于 2026-03-19

评分依据:提出反直觉的训练范式:对抗训练产生合作,有理论支撑和实验验证

要点

Google Paradigms of Intelligence 团队发现:让 Agent 对抗多样化对手池(混合学习型和规则型)训练,无需硬编码协作规则即可涌现稳定合作行为。核心机制是 in-context learning——Agent 通过交互历史实时推断对手策略并调整行为。

传统多智能体强化学习(MARL)的困境是”互相背叛”(mutual defection):每个 Agent 优化自身奖励导致全局次优,如价格算法的竞底螺旋。Google 的方法反其道行之:暴露 Agent 给不可预测的对手,迫使其学会适应而非对抗。

在囚徒困境(IPD)基准测试中,给 Agent 零对手信息、纯靠试错探索时,反而表现最好。研究者称这桥接了 MARL 和基础模型训练范式,为企业多 Agent 部署提供可扩展路径。

🤖 AI 点评

这项研究挑战了”协作需要显式设计”的假设。LangGraph/CrewAI 等框架要求开发者手绘状态机定义协作逻辑,而 Google 证明:把 Agent 扔进足够混乱的环境,协作会自然涌现。开发者角色从”规则编写者”变为”训练环境架构师”——这是从微观管理到宏观治理的范式转变。


标签: