评分 8.4 · 来源:Anthropic · 发布于 2026-03-21
评分依据:旗舰模型重大升级,1M 上下文窗口首次进入 Opus 级别,Agent 编程能力全面领先
要点
Claude Opus 4.6 是 Anthropic 迄今最强模型,核心升级包括:1M token 上下文窗口(首次在 Opus 级别提供 beta 支持)、更强的 Agent 编程能力(在 Terminal-Bench 2.0 上取得最高分)、以及更持久的长时间任务执行能力。在 Humanity’s Last Exam 多学科推理测试中排名第一,在 GDPval-AA 经济价值知识工作评估中超越 GPT-5.2 约 144 Elo 分。
产品层面同步推出多项更新:Claude Code Agent Teams 支持多 Agent 团队协作、API 新增 Compaction(上下文自动压缩)和 Adaptive Thinking(模型自主判断思考深度)、以及 Effort 控制参数让开发者精确调节智能/速度/成本三者的平衡。办公套件方面,Claude in Excel 全面升级,Claude in PowerPoint 以研究预览形式发布。定价维持 $5/$25 per million tokens 不变。
🤖 AI 点评
Opus 4.6 的「自适应思考」和 Effort 控制是一个被低估的信号——Anthropic 开始把推理预算的决策权交给模型本身和开发者,而不是固定一个 thinking budget。这比单纯提升 benchmark 分数更务实,因为真实工作流中简单任务不需要深度推理,烧 token 只会拉高延迟和成本。
Agent Teams + Compaction 的组合意味着 Claude Code 正在从「单兵作战」向「团队协作」演进,这直接对标了 OpenAI Codex 的 Subagents 架构。两大阵营在 Agent 编程工具上的军备竞赛已经进入白热化阶段。