OpenAI推出ChatGPT Images 2.0：双模式图像生成，支持2K输出与推理交互

打印派 2026-04-22 09:47:09

在推出原生图像生成功能一年多后，OpenAI再次对该功能进行重大升级，发布了ChatGPT Images 2.0。该公司将其定位为AI创建和编辑视觉内容的一次决定性飞跃，旨在超越简单的生成功能，向交互式创意引擎迈进。OpenAI将此次发布描述为图像模型的“阶梯式变化”，在指令遵循、文本渲染和场景构图方面均有改进。该模型还能进行任务推理，包括验证输出和调取外部信息，这一转变预示着更广阔的愿景：使AI生成的图像在实际工作流中更加可靠和可用。

两种模式，两种任务

ChatGPT Images 2.0提供两种不同的操作模式：即时模式（Instant）和思考模式（Thinking）。即时模式侧重速度，在保持强大视觉质量的同时快速输出。思考模式则采取更慢、更深思熟虑的方式，在生成视觉内容之前进行推理，从而在多个帧之间保持角色一致性并生成连贯的叙事。这一能力为漫画创作、故事板和多场景设计等用例打开了大门。思考模式试图将图像创建视为一个结构化的过程，而非一次性输出，从而解决早期图像模型难以保持连续性的局限。

交互式图像工作流

最大的转变在于用户与系统的交互方式。OpenAI不再将图像生成视为单一的提示-响应动作，用户现在可以通过对话来优化图像：放大、调整元素或更改构图，无需重新开始。模型在编辑过程中保留上下文，支持迭代设计。在一次演示中，系统从一张上传的图片生成了八套不同的夏季服装。在另一次演示中，它扫描了社交媒体对早期测试模型的反应，然后将这些洞察以视觉方式总结并生成一个链接回ChatGPT的二维码。这一工作流展示了更广泛的能力：该工具可以将推理、研究和设计结合到一个循环中。

语言与设计改进

OpenAI还改进了模型处理非拉丁文字的能力，现在在日本语、韩语、中文、印地语和孟加拉语文本上表现更佳。公司还声称对不同视觉风格的保真度更强，包括与特定艺术语言的更好对齐。这些升级使该工具对游戏开发和视觉叙事更加实用。在技术层面，Images 2.0支持从3:1到1:3的灵活宽高比，可生成高达2K分辨率的图像，并可在单次运行中最多产生八张输出。

随着领先的AI实验室在文本模型性能上趋于接近，差异化竞争已发生转移。OpenAI似乎正大力押注图像作为其下一个竞争前沿。随着ChatGPT Images 2.0现已在网页和API上线，该公司发出了明确的信号：图像生成不再只是一个功能，它正在成为与AI交互的核心界面。

422 0

发表评论

登陆后参与评论