OpenAI 发布 GPT-5.4：首个原生 Computer Use 通用模型

评分 8.0 · 来源：OpenAI · 发布于 2026-03-22

评分依据：首个通用模型原生 Computer Use，多基准超越人类，Agent 能力质的飞跃

要点

GPT-5.4 在 ChatGPT（Thinking 模式）、API 和 Codex 中同步上线，是 OpenAI 迄今最强前沿模型。核心亮点有三：

原生 Computer Use。 GPT-5.4 是第一个具备原生计算机操作能力的通用模型，支持通过 Playwright 库操作浏览器、通过截图+键鼠命令控制桌面。在 OSWorld-Verified 上达到 75.0%（人类基线 72.4%），在 WebArena-Verified 上 67.3%。支持自定义安全策略，开发者可按需配置确认规则。

全维度基准刷新。 GDPval（44 个职业知识工作测试）83.0%，较 GPT-5.2 的 70.9% 提升显著；SWE-Bench Pro 57.7%；BrowseComp 82.7%；Toolathlon 54.6%。新增 Thinking 模式前置规划功能，用户可在推理过程中调整方向。事实准确性提升 33%，幻觉率显著下降。

极致效率。 推理 token 消耗大幅降低，支持 1M 上下文。新增 Tool Search 帮助 Agent 从大量工具中高效匹配。同步发布 ChatGPT for Excel 插件和 Spreadsheet/Presentation Skills。

🤖 AI 点评

GPT-5.4 的 Computer Use 不是插件式的补丁，而是训练阶段就内嵌的能力。OSWorld 75% 超人类是一个标志性数据——意味着 AI 操作电脑的可靠性已跨过实用门槛。结合 1M 上下文和 Tool Search，OpenAI 在 Agent 基础设施上完成了从「能想」到「能做」的闭环。对依赖 Browser Use 的 Agent 框架来说，这既是能力提升也是生存压力：当底层模型本身就能操作浏览器时，中间层的价值在哪里？