ChatGPT 新图像模型竟成文字生成高手？

过去，区分人类创作与 AI 生成的图像相对容易——就在两年前，你根本无法使用图像生成模型为一家墨西哥餐厅设计菜单，而不会创造出诸如"enchuita"（虚构的“恩丘伊塔”）、"churiros"、“burrto"和"margartas"等凭空捏造的美食名称。

如今，当我向全新的 ChatGPT Images 2.0 模型请求一份墨西哥美食菜单时，它生成的内容几乎可以直接用于真实餐厅，顾客甚至难以察觉其中有任何违和之处。（不过，如果酸橘汁腌鱼标价高达 13.50 美元，我可能会怀疑其食材品质。）

图片来源：ChatGPT Images 2.0

作为对比，以下是我在两年前从 DALL-E 3 获得的生成结果（当时 ChatGPT 尚不具备图像生成功能）：

图片来源：Microsoft Designer (DALL-E 3)

长期以来，AI 图像生成器在文字渲染方面一直表现不佳，这主要是因为它们普遍采用扩散模型（diffusion models）。这类模型的工作原理是从噪声中重建图像。

Lesan AI 创始人兼首席执行官 Asmelash Teka Hadgu 曾在 2024 年接受 TechCrunch 采访时指出：“扩散模型本质上是在重构给定的输入。我们可以认为图像中的文字仅占极小一部分像素，因此图像生成器会优先学习覆盖更多像素的通用模式。”

此后，研究人员开始探索其他图像生成机制，例如自回归模型（autoregressive models）。这类模型通过预测图像应有的形态来工作，其行为更接近大型语言模型（LLM）。

不幸的是，OpenAI 在本周的一次媒体简报会上拒绝回答关于驱动 ChatGPT Images 2.0 的具体模型类型的问题。