OpenAI推出新一代实时语音模型：GPT-Realtime-2支持工具调用与128K上下文，翻译模型覆盖70种输入语言

打印派 2026-05-08 10:57:40

美国人工智能公司OpenAI于5月7日通过其API推出了三款新的音频模型，进一步将实时语音AI能力向开发者开放。此次发布的模型包括GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper，分别针对实时语音交互中的不同场景。OpenAI表示，新模型旨在让语音软件在日常使用中更加实用——包括开车时的对话、机场导航、以及无需打字的客户支持等。公司将此次发布置于计算界面更广泛转变的背景下：“语音正在成为人们使用软件的最自然方式之一。”

旗舰模型：支持推理、工具调用与长上下文

GPT-Realtime-2是本轮发布的核心模型。OpenAI将其描述为第一款具备GPT-5级别推理能力的语音模型。该系统能够处理更复杂的请求、管理对话中的打断并以自然方式继续交谈。该模型同时支持实时工具调用：开发者可以让AI在与用户对话的过程中访问日历、搜索系统或其他工具。OpenAI表示，该模型可以使用“正在检查你的日历”或“正在查找”等短语实时解释这些操作。此外，模型的上下文窗口从32K扩展至128K，允许更长的对话和更复杂的任务而不丢失上下文。OpenAI称，GPT-Realtime-2在发生错误时能够更平滑地恢复，并能更好理解行业特定术语（包括医疗词汇和专有名词）。基准测试显示，GPT-Realtime-2（高）在Big Bench Audio上的得分比GPT-Realtime-1.5高15.2%，而xhigh版本在Audio MultiChallenge测试中的指令遵循得分提高了13.8%。

实时翻译与转录：覆盖70种输入语言

GPT-Realtime-Translate是一款专为多语言对话设计的实时翻译模型。它将超过70种输入语言的语音翻译成13种输出语言，同时保持与说话者的同步。OpenAI将该模型定位用于客户支持、旅行和跨语言通信系统。该公司提到了已在使用中的案例：德国电信（Deutsche Telekom）正在构建语音支持工具，允许客户以自己偏好的语言说话，而AI实时翻译对话。第三款模型GPT-Realtime-Whisper则专注于实时转录，在用户说话的同时将语音转换为文本，支持流式语音转文字用例。

行业应用与竞争格局

OpenAI表示，更广泛的目标是超越简单的语音助手，转向可以在对话中主动完成任务的人机交互系统。例如，Zillow正在开发一款语音助手，仅通过语音请求即可完成房屋搜索、筛选偏好和安排参观。新的语音模型使OpenAI与谷歌的Gemini Live形成了更直接的竞争。后者的优势在于快速响应和更强的语言支持，而OpenAI的侧重点则是在更长交互中让对话感觉自然——包括处理中断、在通话期间使用工具，以及“跟上说话者的节奏”。分析人士指出，语音正从“输入方式”演变为“交互界面”。OpenAI此次发布的模型组合（推理+翻译+转录）覆盖了从单语深度对话到跨语言服务的完整链条，而工具调用能力则使语音助手从“回答问题”升级为“执行操作”。对于开发者而言，128K上下文窗口和实时工具整合降低了构建复杂语音应用的工程门槛。然而，模型的实际延迟、多语言精度以及成本控制，将决定其在大规模商用场景中的竞争力。

149 0

发表评论

登陆后参与评论