GPT-5.5编程能力实测：Terminal-Bench拿下82.7%，全面超越Claude Opus 4.7

打印派 2026-04-24 08:50:17

美国东部时间4月23日，OpenAI正式发布GPT-5.5，将其定位为目前“最能干且最直观”的大语言模型。新版本重点强化了模型自主完成复杂、多步骤任务的能力，标志着OpenAI向“代理式AI”（Agentic AI）方向再进一步。

在代理式编程这一关键赛道上，GPT-5.5交出了亮眼成绩单。在Terminal-Bench 2.0基准测试中，该模型取得了82.7%的准确率，创下新的行业纪录。对比测试显示，这一得分明显高于Anthropic旗下Claude Opus 4.7的表现，后者的公开得分约为71%左右。在另一项行业标准测试SWE-Bench Pro上，GPT-5.5达到了58.6%的准确率，意味着它能够一次性解决比前代版本更多的真实GitHub问题。

OpenAI表示，这些进步不仅体现在基准测试上。早期测试者反馈，GPT-5.5对系统架构和错误点的理解能力显著提升，能够准确判断修复位置并预测代码库中的连锁影响。

效率与智能同步提升

值得注意的是，GPT-5.5在提升智能水平的同时并未牺牲响应速度。据OpenAI披露，该模型在实际服务中的每令牌延迟与GPT-5.4持平，且完成相同任务所需的令牌数量明显减少，从而降低了计算成本。

“GPT-5.5在速度不受损的前提下实现了智能水平的跃升。”OpenAI在官方声明中强调，模型在保持实时响应的同时，性能表现全面优于前代。

内部落地：通信、财务团队已广泛使用

OpenAI透露，超过85%的内部员工每周使用Codex工具，覆盖工程、财务、市场等多个部门。通信团队利用GPT-5.5处理了六个月的演讲请求数据，系统自动构建评分与风险框架，并辅助完成低风险审批流程。财务团队则借助模型审阅了24,771份K-1税务表格，合计超过71,000页，处理时间缩短了两周。另一个团队将每周商业报告流程自动化，每周节省5到10小时。

安全与可用性

OpenAI强调，此次发布配备了公司迄今为止最强大的安全防护措施，包括红队测试、高级评估以及近200家早期合作伙伴的反馈。GPT-5.5即日起向ChatGPT的Plus、Pro、Business和Enterprise用户以及Codex平台开放。API访问将在完成额外的安全与扩容要求后提供。

业内人士指出，GPT-5.5在代理式编程任务上对Claude Opus 4.7形成明显压制，将进一步加剧AI代码助手市场的竞争。对于企业开发者而言，模型“少干预、多自主”的特性，有望将人力从繁琐的步骤引导中解放出来，聚焦更高价值的架构与创新工作。