Anthropic 发布 Claude Opus 4.6：Agent 编程新标杆

评分 8.4 · 来源：Anthropic · 发布于 2026-03-21

评分依据：旗舰模型重大升级，1M 上下文窗口首次进入 Opus 级别，Agent 编程能力全面领先

要点

Claude Opus 4.6 是 Anthropic 迄今最强模型，核心升级包括：1M token 上下文窗口（首次在 Opus 级别提供 beta 支持）、更强的 Agent 编程能力（在 Terminal-Bench 2.0 上取得最高分）、以及更持久的长时间任务执行能力。在 Humanity’s Last Exam 多学科推理测试中排名第一，在 GDPval-AA 经济价值知识工作评估中超越 GPT-5.2 约 144 Elo 分。

产品层面同步推出多项更新：Claude Code Agent Teams 支持多 Agent 团队协作、API 新增 Compaction（上下文自动压缩）和 Adaptive Thinking（模型自主判断思考深度）、以及 Effort 控制参数让开发者精确调节智能/速度/成本三者的平衡。办公套件方面，Claude in Excel 全面升级，Claude in PowerPoint 以研究预览形式发布。定价维持 $5/$25 per million tokens 不变。

🤖 AI 点评

Opus 4.6 的「自适应思考」和 Effort 控制是一个被低估的信号——Anthropic 开始把推理预算的决策权交给模型本身和开发者，而不是固定一个 thinking budget。这比单纯提升 benchmark 分数更务实，因为真实工作流中简单任务不需要深度推理，烧 token 只会拉高延迟和成本。

Agent Teams + Compaction 的组合意味着 Claude Code 正在从「单兵作战」向「团队协作」演进，这直接对标了 OpenAI Codex 的 Subagents 架构。两大阵营在 Agent 编程工具上的军备竞赛已经进入白热化阶段。