美国人工智能公司OpenAI于5月7日通过其API推出了三款新的音频模型,进一步将实时语音AI能力向开发者开放。此次发布的模型包括GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,分别针对实时语音交互中的不同场景。OpenAI表示,新模型旨在让语音软件在日常使用中更加实用——包括开车时的对话、机场导航、以及无需打字的客户支持等。公司将此次发布置于计算界面更广泛转变的背景下:“语音正在成为人们使用软件的最自然方式之一。”
旗舰模型:支持推理、工具调用与长上下文
GPT-Realtime-2是本轮发布的核心模型。OpenAI将其描述为第一款具备GPT-5级别推理能力的语音模型。该系统能够处理更复杂的请求、管理对话中的打断并以自然方式继续交谈。该模型同时支持实时工具调用:开发者可以让AI在与用户对话的过程中访问日历、搜索系统或其他工具。OpenAI表示,该模型可以使用“正在检查你的日历”或“正在查找”等短语实时解释这些操作。此外,模型的上下文窗口从32K扩展至128K,允许更长的对话和更复杂的任务而不丢失上下文。OpenAI称,GPT-Realtime-2在发生错误时能够更平滑地恢复,并能更好理解行业特定术语(包括医疗词汇和专有名词)。基准测试显示,GPT-Realtime-2(高)在Big Bench Audio上的得分比GPT-Realtime-1.5高15.2%,而xhigh版本在Audio MultiChallenge测试中的指令遵循得分提高了13.8%。
实时翻译与转录:覆盖70种输入语言
GPT-Realtime-Translate是一款专为多语言对话设计的实时翻译模型。它将超过70种输入语言的语音翻译成13种输出语言,同时保持与说话者的同步。OpenAI将该模型定位用于客户支持、旅行和跨语言通信系统。该公司提到了已在使用中的案例:德国电信(Deutsche Telekom)正在构建语音支持工具,允许客户以自己偏好的语言说话,而AI实时翻译对话。第三款模型GPT-Realtime-Whisper则专注于实时转录,在用户说话的同时将语音转换为文本,支持流式语音转文字用例。
行业应用与竞争格局
OpenAI表示,更广泛的目标是超越简单的语音助手,转向可以在对话中主动完成任务的人机交互系统。例如,Zillow正在开发一款语音助手,仅通过语音请求即可完成房屋搜索、筛选偏好和安排参观。新的语音模型使OpenAI与谷歌的Gemini Live形成了更直接的竞争。后者的优势在于快速响应和更强的语言支持,而OpenAI的侧重点则是在更长交互中让对话感觉自然——包括处理中断、在通话期间使用工具,以及“跟上说话者的节奏”。分析人士指出,语音正从“输入方式”演变为“交互界面”。OpenAI此次发布的模型组合(推理+翻译+转录)覆盖了从单语深度对话到跨语言服务的完整链条,而工具调用能力则使语音助手从“回答问题”升级为“执行操作”。对于开发者而言,128K上下文窗口和实时工具整合降低了构建复杂语音应用的工程门槛。然而,模型的实际延迟、多语言精度以及成本控制,将决定其在大规模商用场景中的竞争力。
29 0
登陆后参与评论
2026-05-08 11:09:29
2026-05-08 11:05:31
2026-05-07 08:34:39
2026-05-06 09:05:44
2026-05-06 08:48:28
2026-05-06 08:47:02
2026-04-30 09:14:12
2026-04-30 09:07:42
2026-04-29 09:38:21
2026-04-29 09:05:34
2026-04-29 09:02:46
2026-04-29 09:01:10