(文/万肇生 编辑/张广凯)
就在深度求索(DeepSeek)发布V4版本的稍早前,美国人工智能软件OpenAI,也刚刚正式对外发布了GPT-5.5版本。
OpenAI表示,GPT-5.5在处理复杂、多步骤任务时表现出色,能够自主规划、调用工具、检查结果,并在模糊条件下坚持完成工作,显著提升了代码编写、数据分析、在线研究、文档与电子表格创建以及软件操作等能力。也被OpenAI称为“迄今最智能、最直观”的版本,主打安全性和真正的Agent(智能体)工作方式作为核心卖点。
目前,该模型已在ChatGPT平台向Plus、Pro、Business和Enterprise付费用户推出,其中针对Pro及以上用户,还提供了更高精度ChatGPT-5.5-Pro版本的支持。但同时,价格也翻倍了。
性能大幅提升,基准测试重回行业前列
根据外部测试数据,GPT-5.5在多项关键基准测试中重回到行业前列,被认为对Anthropic和Google形成了直接压力。
GPT-5.5以3分的总分优势登顶,打破了5.4版本与Anthropologie和Google并列的局面。Artificial Analysis
OpenAI数据显示,GPT-5.5的性能提升集中于四个领域:智能体编程、计算机使用、知识工作和早期科学研究。
在测评复杂命令行任务的Terminal‑Bench 2.0中,GPT‑5.5取得82.7%的得分,显著高于Claude Opus 4.7的69.4%。在自主操作真实计算机环境的OSWorld‑Verified测试中,取得了78.7%的成功率;在覆盖44个职业知识工作能力的GDPval基准上,以84.9%的成绩超过GPT‑5.4的83.0%及Claude Opus 4.7的80.3%。
而在在网络安全领域CyberZoo测试中,GPT‑5.5以81.8%同样领先Claude Opus 4.7的73.1%。
与以往模型相比,生产力提升是GPT-5.5最直接的商业价值。OpenAI已将其定位为“真正可工作的AI助手”,而不仅是聊天机器人。
通过更稳定的函数调用、更可靠的代理执行能力以及更深度的办公软件集成,GPT-5.5不仅擅长单一任务,还能够承担从市场调研、会议纪要整理、财务分析,到编程协作、客服自动化和知识管理等大量重复性任务。这使其特别适用于软件开发、知识工作和早期科学研究场景。有用户反馈显示,它能更高效地调试代码、操作软件,并像“助理”一样协助办公流程。
OpenAI还同时推出了“GPT-5.5 Thinking”功能,在ChatGPT中为复杂问题提供更快、更简洁的智能解答。而Pro版本则针对高难度任务,进一步优化了准确性。
值得关注的是,GPT‑5.5在实现能力跃升的同时并未牺牲速度。模型在真实环境中的每token延迟与GPT‑5.4相当。此外,它完成相同的 Codex 任务所需的token数量也显著减少。
Artificial Analysis的评测显示,尽管每token定价从GPT‑5.4的2.50美元和15美元(输入/输出,每百万token)翻倍至5美元和30美元,但因token消耗降低约40%,实际任务成本净增仅约20%,这个价格已经比Claude Opus 4.7 便宜了30%。
各大模型的成本对比。Artificial Analysis
OpenAI总裁布罗克曼(Greg Brockman)就在记者会上声称,“这个模型真正的特别之处在于,它能在更少的任务指令下完成更多工作。它能在面对一个模糊的问题时,自主判断下一步该做什么。在我看来,这感觉像是为我们未来使用电脑工作,奠定了基础。”
面对性能竞争,OpenAI决定从安全上破局
另一方面,随着OpenAI与对手们的竞争激烈,甚至闭源与开源模型之间差距也在明显缩小。当性能跑分上拉不开差距时,总需要一些新的突破口。
比如自本月初Anthropic公司发布其Mythos模型以来,人工智能带来的网络安全风险,一直是科技高管和政府官员最为关注的问题。Anthropic目前已决定限制Mythos的推广范围,因为它能够识别软件中的弱点和安全漏洞。但与Anthropic做法不同的是,OpenAI则选择更开放的策略,通过ChatGPT广泛推送GPT-5.5,并依靠防护栏而非严格限流。
OpenAI表示,GPT-5.5并非单纯追求更强输出,而是在“更可控”上下了更大功夫。GPT-5.5采用了更系统的对齐训练和分层安全机制,在危险内容识别、欺诈信息生成防范、生物安全风险控制以及未成年人保护方面进行了强化。模型在面对高风险请求时,能够更准确地区分合法用途与滥用意图,减少误判与漏判。
对此,《纽约时报》指出,OpenAI这种发布策略,反映出该公司的战略重心正在出现变化,即从单纯追求模型“更聪明”,转向让模型“更值得人们信任、更容易部署”。毕竟在AI竞争进入商业化深水区后,企业客户更关心稳定性、合规性和投资回报率,而非单项跑分。
当然,这实际也引发出一个关于安全担忧的题外话。比如HackerNews上就有用户提到,现在的市场理论建立在每个劳动者像螺丝一样可被单独替换、且劳动力供给充足的这个假设上。但如今大模型变成了资本的另一种形式,它不仅替代了劳动力,而且由资本把持,这颠覆了传统劳动价值论。在如今还没未拥有自主大模型的企业,如依赖OpenAI这种外部闭源AI模型提供商,那么这家企业的处境,就会从“剥削者”最终沦为“被剥削者”。
不过,从总体来说,此次GPT-5.5的发布,距离GPT-5.4只有六个星期。这么短的时间,更像是OpenAI在面对众多竞争者时,被迫努力“重新证明自己价值”的行为。如此快速的迭代,势必也将再次点燃人工智能行领域的竞赛。