撰文:Web4 研究中心
美国当地时间 4 月 21 日,OpenAI 在几乎没有预告的情况下发布新一代图像生成模型 ChatGPT Images 2.0。

一夜之间,社交媒体被各种「神图」刷屏。马斯克在抖音直播间带货老干妈,库克在苹果园区发布 iPhone 20,学术论文截图、伪造的转账记录铺天盖地。4 月 22 日,小米集团董事长特别助理徐洁云在微博上直斥 P 图乱搞现象,然而评论区里依旧有网友在传播同类高仿图。网友们在评论区感叹:「根本分不出真假。」

奥特曼把这次更新形容为「从穴居人壁画到文艺复兴的飞跃」,进步程度堪比从 GPT-3 到 GPT-5 的跨越。跑分层面更直观:模型迅速登顶 Image Arena 所有榜单,在文生图排行上领先第二名 242 分,创下该领域最大分差纪录。
但如果仅仅把这次更新看作一次性能跑分秀,可能恰恰错过了真正值得关注的信号。登顶榜单只是序幕,真正的戏剧性在别处——ChatGPT Images 2.0 是 OpenAI 首个具备「思考」能力的图像模型。
在此之前,评判图像模型的第一标准是「像不像」。Images 2.0 把标准推向了更深处:从「画得像不像」的审美考场,切换到了「逻辑对不对」的智力考场。
一、思考模式如何改写生图规则
过去整整几年,AI 生图本质上是一场「开盲盒」。用户输入提示词,模型在像素空间中拼接、去噪,吐出一张图。至于画面中的物体比例对不对、文字能不能看、前后景有没有逻辑关系,全靠运气。
Images 2.0 改了这套玩法。在「思考模式」下,模型会先规划图像结构,再联网搜索实时信息补全品牌、场景等细节,最后在输出前进行自我核查。官方展示的案例中,简单提示即可生成高仿真界面截图、广告设计及 UI 界面。
技术上有几个硬指标值得一提。新模型单次提示最多可生成 8 张图像,且能保持角色、物体和风格跨图一致。分辨率最高支持 2K,宽高比扩展到 3:1 与 1:3,能适配电影剧照、像素艺术等多种风格。知识截止日期为 2025 年 12 月,生成信息图、教育图表时的时效性更强。
Linux.do 社区流出的一张实测图让不少开发者倒吸一口凉气:模型模拟了雷军直播跑步的画面,雷军面部特征精准还原,图中显示直播目标 1313km、已跑里程 425.7km、当前海拔 3658m。3658m 是什么概念?从北京进入藏区的典型海拔恰好就是这个数。对一个图像模型来说,这意味着它同时完成了数学逻辑、地理常识和 UI 规范的三重统一——在生成第一个像素之前,它已经完成了一轮推理。
这不再只是「画图」,这是一场从渲染到推理的范式转移。过去 AI 画的是像素,现在 AI 画的是理解。
二、中文乱码的终结意味着什么
对中国用户来说,Images 2.0 最切身的体感提升,来自一件「小事」——AI 终于能写对中文字了。

图片由 ChatGPT 生成
过去 AI 生图在中文面前几乎束手无策。笔画变形、乱码、排版错乱,让所有需要嵌入文字的场景——海报标题、菜单、UI 界面、试卷、证书——几乎无法商用。这不仅仅是技术瓶颈,更是一条隐性的语言鸿沟:英语用户可以用 AI 做精准的营销物料,而非英语用户只能面对乱码,被迫放弃或寻找人工替代。
Images 2.0 改变了这个局面。OpenAI 表示,它首次实现了非拉丁文字「融入设计」而非硬贴字符。新京报 AI 研究院实测中,记者要求生成「拿着针的女性,针尖雕刻‘新京报 AI 研究院’楷书」——放大图片后,六个楷书字清晰可见,带有金属光泽和微雕质感。澎湃新闻的测试显示,生成马斯克直播推介澎湃新闻的图片,Logo 和中文名均准确无误。雷科技的实测中,把团队合照丢给 ChatGPT 要求生成杂志封面,中文部分一次性正确渲染。
进步显著,但「彻底解决」尚有距离。部分测试显示复杂排版下非英语语种渲染仍存在不稳定性,3D 空间逻辑中的文字越往远处越模糊,书法质感更接近「印刷品」而非手写。AI 学会了写字,但还没学会「写书法」。
三、一个人的创作革命
如果说思考模式是技术层面的跃迁,那么多语言文字渲染则是商业应用层面最关键的拼图。
过去让 AI 批量产出一套品牌视觉,需要来回反复提示十几次。现在构思、排版、多尺寸适配由同一个模型一并完成。对非英语市场的内容创作者来说,过去生成一张中文海报往往要在 PS 里手动补字——这一步现在可以省掉了。
一个自媒体人可以用它做封面、配图、金句海报。一个开社区小店的老板可以自己生成像模像样的促销海报。一个想做副业的普通人,设计手机壳、帆布袋图案的门槛直接降到零。
但兴奋之余,一个问题浮出水面。当所有人都能零成本、高质量地「表达」,内容供给量会爆炸式增长。互联网让信息变得免费,但「注意力」变得更贵;AI 让创作变得免费,那什么会变得更贵?
表达的通货膨胀正在加速。当每个人都拥有了专业级的生产力,「会做」本身不再构成竞争力。真正稀缺的不再是内容生产能力,而是另一件东西——信任。
四、当 AI 让表达变得廉价,什么会变得更贵
Images 2.0 的「以假乱真」能力,既是最大的卖点,也是最大的隐忧。
新京报 AI 研究院注意到,有网友通过 Images 2.0 生成了能够扫描的条形码——意味着它对图像底层逻辑的理解已达到肉眼难以分辨的精准度。澎湃新闻的测试更令人警惕:记者将个人身份证上传后要求换成库克的脸,模型不仅改变了人脸,还同步替换了人名、出生年月日和身份证号码。

OpenAI 在发布时表示延续了 C2PA 数字水印技术,每张图片携带不可见的元数据标识,可通过专业工具溯源。但普通用户在社交媒体上看到一张图片时,谁会先去跑一遍溯源工具?
当 AI Agent 能模仿任何人的风格、任何品牌的视觉语言,「眼见为实」的认知基础正在被动摇。在一个 AI 能替我们表达的年代,人类创作者的价值锚点究竟在哪里?
答案可能不在于「表达」本身,而在于表达背后那个不可替代的东西——身份的稀缺性。
OpenAI 把 Images 2.0 定位为「从渲染工具到视觉系统的跨越式升级」,这句话的关键词不是「系统」,而是「视觉」。当视觉生产从手工艺变成工业化流水线,唯一无法被复制的是「这是谁做的」以及「这是什么时候做的」。区块链在 Web4 时代的核心价值,或许不在于老生常谈的版权登记,而在于为数字时代的身份和时序提供基础设施——当 AI 让表达无限供给,稀缺的不是创作,是「这个声音是我」。
五、谁来决定「谁被看见」
表达变得无限廉价之后,另一个问题随之而来:谁来决定哪些声音被听到?
OpenAI 在发布页上写了一句话:Images are a language, not decoration。翻译过来就是,从今天起,图像不再是装饰品,它本身就是一种语言。图像作为一种语言,被注入了推理能力,可以联网搜索、多方案并行生成、自我审查。它不再是被动的工具,而是主动的视觉思维伙伴。
但这个「伙伴」掌握在谁手里?定价策略透露了部分答案。API 端按质量和分辨率阶梯计费,所有 ChatGPT 及 Codex 用户可免费使用基础版,带思考能力的高级输出向 Plus、Pro 和 Business 用户开放。图像按 token 计费,和文字并排摆在同一张价目表上——这意味着图像不再是独立的消费品,而是 AI Agent 经济里的最小原语,和文字一样可以被自动调用、按字节计量、编程式拼装。
当图像成为 token,表达就彻底进入了算法经济的轨道。平台算法决定了什么内容被推荐、什么声音被放大。创作者的影响力本质上依附于平台,而不是属于自己。
当表达的生产工具被彻底民主化之后,表达的传播渠道仍然是中心化的。有没有可能,影响力的凭证不再由平台单方面决定,而是可验证、可携带、不可篡改地属于创作者本人?
OpenAI 没有回答这个问题。他们做的只是把创作的门槛踩到了地板上。剩下的问题,需要新的基础设施来回答。
六、表达的黄金时代与信任的冰河期
Images 2.0 的发布,不是一次简单的模型迭代。它踩下了一脚加速踏板,让我们提前看到了一幅画面:一个 AI 能替我们思考、替我们表达、替我们设计的时代正在到来。
但硬币有两面。在表达变得无比容易的同时,信任变得无比困难。在内容可以无限生成的同时,真实变得无比稀缺。
加缪笔下的西西弗斯日复一日推石上山,他至少知道自己在推的是同一块石头。而在 AI 生成内容的洪流中,我们甚至分不清哪一块石头是真的。
表达的黄金时代到来了。信任的冰河期也到来了。




