ChatGPT Images 2.0 在文字渲染上实现重大突破,生成的墨西哥菜单等图像逼真自然,几乎无需人工修正。相比旧版扩散模型,新模型可能采用更先进的自回归架构,具备“思考”能力:支持联网搜索、单提示多图生成及自我校验,并能创作多格漫画。此外,其对日语等非拉丁文字的识别能力显著增强,知识截止至 2025 年 12 月。尽管 OpenAI 未透露具体技术细节,但 Images 2.0 已展现出前
过去,区分人类创作与 AI 生成的图像相对容易——就在两年前,你根本无法使用图像生成模型为一家墨西哥餐厅设计菜单,而不会创造出诸如"enchuita"(虚构的“恩丘伊塔”)、"churiros"、“burrto"和"margartas"等凭空捏造的美食名称。
如今,当我向全新的 ChatGPT Images 2.0 模型请求一份墨西哥美食菜单时,它生成的内容几乎可以直接用于真实餐厅,顾客甚至难以察觉其中有任何违和之处。(不过,如果酸橘汁腌鱼标价高达 13.50 美元,我可能会怀疑其食材品质。)
图片来源:ChatGPT Images 2.0
作为对比,以下是我在两年前从 DALL-E 3 获得的生成结果(当时 ChatGPT 尚不具备图像生成功能):
图片来源:Microsoft Designer (DALL-E 3)
长期以来,AI 图像生成器在文字渲染方面一直表现不佳,这主要是因为它们普遍采用扩散模型(diffusion models)。这类模型的工作原理是从噪声中重建图像。
Lesan AI 创始人兼首席执行官 Asmelash Teka Hadgu 曾在 2024 年接受 TechCrunch 采访时指出:“扩散模型本质上是在重构给定的输入。我们可以认为图像中的文字仅占极小一部分像素,因此图像生成器会优先学习覆盖更多像素的通用模式。”
此后,研究人员开始探索其他图像生成机制,例如自回归模型(autoregressive models)。这类模型通过预测图像应有的形态来工作,其行为更接近大型语言模型(LLM)。
不幸的是,OpenAI 在本周的一次媒体简报会上拒绝回答关于驱动 ChatGPT Images 2.0 的具体模型类型的问题。
来源:techcrunch.com
