GPT-5.5正式发布：多项测试超越Claude，实力重回前列,gpt54

（文/万肇生编辑/张广凯）

就在深度求索（DeepSeek）发布V4版本的稍早前，美国人工智能软件OpenAI，也刚刚正式对外发布了GPT-5.5版本。

OpenAI表示，GPT-5.5在处理复杂、多步骤任务时表现出色，能够自主规划、调用工具、检查结果，并在模糊条件下坚持完成工作，显著提升了代码编写、数据分析、在线研究、文档与电子表格创建以及软件操作等能力。也被OpenAI称为“迄今最智能、最直观”的版本，主打安全性和真正的Agent（智能体）工作方式作为核心卖点。

目前，该模型已在ChatGPT平台向Plus、Pro、Business和Enterprise付费用户推出，其中针对Pro及以上用户，还提供了更高精度ChatGPT-5.5-Pro版本的支持。但同时，价格也翻倍了。

性能大幅提升，基准测试重回行业前列

根据外部测试数据，GPT-5.5在多项关键基准测试中重回到行业前列，被认为对Anthropic和Google形成了直接压力。

GPT-5.5以3分的总分优势登顶，打破了5.4版本与Anthropologie和Google并列的局面。Artificial Analysis

OpenAI数据显示，GPT-5.5的性能提升集中于四个领域：智能体编程、计算机使用、知识工作和早期科学研究。

在测评复杂命令行任务的Terminal‑Bench 2.0中，GPT‑5.5取得82.7%的得分，显著高于Claude Opus 4.7的69.4%。在自主操作真实计算机环境的OSWorld‑Verified测试中，取得了78.7%的成功率；在覆盖44个职业知识工作能力的GDPval基准上，以84.9%的成绩超过GPT‑5.4的83.0%及Claude Opus 4.7的80.3%。

而在在网络安全领域CyberZoo测试中，GPT‑5.5以81.8%同样领先Claude Opus 4.7的73.1%。

与以往模型相比，生产力提升是GPT-5.5最直接的商业价值。OpenAI已将其定位为“真正可工作的AI助手”，而不仅是聊天机器人。

通过更稳定的函数调用、更可靠的代理执行能力以及更深度的办公软件集成，GPT-5.5不仅擅长单一任务，还能够承担从市场调研、会议纪要整理、财务分析，到编程协作、客服自动化和知识管理等大量重复性任务。这使其特别适用于软件开发、知识工作和早期科学研究场景。有用户反馈显示，它能更高效地调试代码、操作软件，并像“助理”一样协助办公流程。

OpenAI还同时推出了“GPT-5.5 Thinking”功能，在ChatGPT中为复杂问题提供更快、更简洁的智能解答。而Pro版本则针对高难度任务，进一步优化了准确性。

值得关注的是，GPT‑5.5在实现能力跃升的同时并未牺牲速度。模型在真实环境中的每token延迟与GPT‑5.4相当。此外，它完成相同的 Codex 任务所需的token数量也显著减少。

Artificial Analysis的评测显示，尽管每token定价从GPT‑5.4的2.50美元和15美元（输入/输出，每百万token）翻倍至5美元和30美元，但因token消耗降低约40%，实际任务成本净增仅约20%，这个价格已经比Claude Opus 4.7 便宜了30%。

各大模型的成本对比。Artificial Analysis

OpenAI总裁布罗克曼（Greg Brockman）就在记者会上声称，“这个模型真正的特别之处在于，它能在更少的任务指令下完成更多工作。它能在面对一个模糊的问题时，自主判断下一步该做什么。在我看来，这感觉像是为我们未来使用电脑工作，奠定了基础。”

面对性能竞争，OpenAI决定从安全上破局

另一方面，随着OpenAI与对手们的竞争激烈，甚至闭源与开源模型之间差距也在明显缩小。当性能跑分上拉不开差距时，总需要一些新的突破口。

比如自本月初Anthropic公司发布其Mythos模型以来，人工智能带来的网络安全风险，一直是科技高管和政府官员最为关注的问题。Anthropic目前已决定限制Mythos的推广范围，因为它能够识别软件中的弱点和安全漏洞。但与Anthropic做法不同的是，OpenAI则选择更开放的策略，通过ChatGPT广泛推送GPT-5.5，并依靠防护栏而非严格限流。

OpenAI表示，GPT-5.5并非单纯追求更强输出，而是在“更可控”上下了更大功夫。GPT-5.5采用了更系统的对齐训练和分层安全机制，在危险内容识别、欺诈信息生成防范、生物安全风险控制以及未成年人保护方面进行了强化。模型在面对高风险请求时，能够更准确地区分合法用途与滥用意图，减少误判与漏判。

对此，《纽约时报》指出，OpenAI这种发布策略，反映出该公司的战略重心正在出现变化，即从单纯追求模型“更聪明”，转向让模型“更值得人们信任、更容易部署”。毕竟在AI竞争进入商业化深水区后，企业客户更关心稳定性、合规性和投资回报率，而非单项跑分。

当然，这实际也引发出一个关于安全担忧的题外话。比如HackerNews上就有用户提到，现在的市场理论建立在每个劳动者像螺丝一样可被单独替换、且劳动力供给充足的这个假设上。但如今大模型变成了资本的另一种形式，它不仅替代了劳动力，而且由资本把持，这颠覆了传统劳动价值论。在如今还没未拥有自主大模型的企业，如依赖OpenAI这种外部闭源AI模型提供商，那么这家企业的处境，就会从“剥削者”最终沦为“被剥削者”。

不过，从总体来说，此次GPT-5.5的发布，距离GPT-5.4只有六个星期。这么短的时间，更像是OpenAI在面对众多竞争者时，被迫努力“重新证明自己价值”的行为。如此快速的迭代，势必也将再次点燃人工智能行领域的竞赛。