GPT-5.5编程能力实测:Terminal-Bench拿下82.7%,全面超越Claude Opus 4.7

打印派   2026-04-24 08:50:17

美国东部时间4月23日,OpenAI正式发布GPT-5.5,将其定位为目前“最能干且最直观”的大语言模型。新版本重点强化了模型自主完成复杂、多步骤任务的能力,标志着OpenAI向“代理式AI”(Agentic AI)方向再进一步。

在代理式编程这一关键赛道上,GPT-5.5交出了亮眼成绩单。在Terminal-Bench 2.0基准测试中,该模型取得了82.7%的准确率,创下新的行业纪录。对比测试显示,这一得分明显高于Anthropic旗下Claude Opus 4.7的表现,后者的公开得分约为71%左右。在另一项行业标准测试SWE-Bench Pro上,GPT-5.5达到了58.6%的准确率,意味着它能够一次性解决比前代版本更多的真实GitHub问题。

GPT-5.5编程能力实测:Terminal-Bench拿下82.7%,全面超越Claude Opus 4.7

OpenAI表示,这些进步不仅体现在基准测试上。早期测试者反馈,GPT-5.5对系统架构和错误点的理解能力显著提升,能够准确判断修复位置并预测代码库中的连锁影响。

效率与智能同步提升

值得注意的是,GPT-5.5在提升智能水平的同时并未牺牲响应速度。据OpenAI披露,该模型在实际服务中的每令牌延迟与GPT-5.4持平,且完成相同任务所需的令牌数量明显减少,从而降低了计算成本。

“GPT-5.5在速度不受损的前提下实现了智能水平的跃升。”OpenAI在官方声明中强调,模型在保持实时响应的同时,性能表现全面优于前代。

内部落地:通信、财务团队已广泛使用

OpenAI透露,超过85%的内部员工每周使用Codex工具,覆盖工程、财务、市场等多个部门。通信团队利用GPT-5.5处理了六个月的演讲请求数据,系统自动构建评分与风险框架,并辅助完成低风险审批流程。财务团队则借助模型审阅了24,771份K-1税务表格,合计超过71,000页,处理时间缩短了两周。另一个团队将每周商业报告流程自动化,每周节省5到10小时。

安全与可用性

OpenAI强调,此次发布配备了公司迄今为止最强大的安全防护措施,包括红队测试、高级评估以及近200家早期合作伙伴的反馈。GPT-5.5即日起向ChatGPT的Plus、Pro、Business和Enterprise用户以及Codex平台开放。API访问将在完成额外的安全与扩容要求后提供。

业内人士指出,GPT-5.5在代理式编程任务上对Claude Opus 4.7形成明显压制,将进一步加剧AI代码助手市场的竞争。对于企业开发者而言,模型“少干预、多自主”的特性,有望将人力从繁琐的步骤引导中解放出来,聚焦更高价值的架构与创新工作。


0

48 0

发表评论

登陆后参与评论