在推出原生图像生成功能一年多后,OpenAI再次对该功能进行重大升级,发布了ChatGPT Images 2.0。该公司将其定位为AI创建和编辑视觉内容的一次决定性飞跃,旨在超越简单的生成功能,向交互式创意引擎迈进。OpenAI将此次发布描述为图像模型的“阶梯式变化”,在指令遵循、文本渲染和场景构图方面均有改进。该模型还能进行任务推理,包括验证输出和调取外部信息,这一转变预示着更广阔的愿景:使AI生成的图像在实际工作流中更加可靠和可用。

两种模式,两种任务
ChatGPT Images 2.0提供两种不同的操作模式:即时模式(Instant)和思考模式(Thinking)。即时模式侧重速度,在保持强大视觉质量的同时快速输出。思考模式则采取更慢、更深思熟虑的方式,在生成视觉内容之前进行推理,从而在多个帧之间保持角色一致性并生成连贯的叙事。这一能力为漫画创作、故事板和多场景设计等用例打开了大门。思考模式试图将图像创建视为一个结构化的过程,而非一次性输出,从而解决早期图像模型难以保持连续性的局限。
交互式图像工作流
最大的转变在于用户与系统的交互方式。OpenAI不再将图像生成视为单一的提示-响应动作,用户现在可以通过对话来优化图像:放大、调整元素或更改构图,无需重新开始。模型在编辑过程中保留上下文,支持迭代设计。在一次演示中,系统从一张上传的图片生成了八套不同的夏季服装。在另一次演示中,它扫描了社交媒体对早期测试模型的反应,然后将这些洞察以视觉方式总结并生成一个链接回ChatGPT的二维码。这一工作流展示了更广泛的能力:该工具可以将推理、研究和设计结合到一个循环中。
语言与设计改进
OpenAI还改进了模型处理非拉丁文字的能力,现在在日本语、韩语、中文、印地语和孟加拉语文本上表现更佳。公司还声称对不同视觉风格的保真度更强,包括与特定艺术语言的更好对齐。这些升级使该工具对游戏开发和视觉叙事更加实用。在技术层面,Images 2.0支持从3:1到1:3的灵活宽高比,可生成高达2K分辨率的图像,并可在单次运行中最多产生八张输出。
随着领先的AI实验室在文本模型性能上趋于接近,差异化竞争已发生转移。OpenAI似乎正大力押注图像作为其下一个竞争前沿。随着ChatGPT Images 2.0现已在网页和API上线,该公司发出了明确的信号:图像生成不再只是一个功能,它正在成为与AI交互的核心界面。
40 0
登陆后参与评论
2026-04-22 09:34:28
2026-04-21 09:23:15
2026-04-21 09:22:01
2026-04-21 09:20:24
2026-04-20 09:18:52
2026-04-20 09:03:41
2026-04-17 09:18:50
2026-04-16 10:00:48
2026-04-16 09:19:41
2026-04-16 09:11:42
2026-04-16 09:02:33
2026-04-15 08:42:25