原生多模态模型的革命性突破
GPT-4o 作为原生多模态模型,不仅能生成美观图像,更重要的是它真正理解内容而非简单模仿视觉,这可能会对整个创意产业产生颠覆性影响。
我注意到 GPT-4o 图像发布博客中有一句关键描述:”原生图像生成使 4o 能够将其知识在文本和图像之间连接,从而产生一个感觉更智能、更高效的模型”。这句话揭示了 GPT-4o 的核心优势。所谓原生多模态模型,指的是在设计和训练阶段就具备处理多种数据类型能力的模型,它的输入输出都具有多模态处理能力,并且在这些模态之间具有跨模态迁移能力。与非多模态模型相比,后者的语言模型和图像生成是分离的,生成图像时往往缺乏真实理解,只是凭视觉纹理拼凑出看似合理的图像,导致不合逻辑的结果。
GPT-4o 的核心图像能力
GPT-4o 的图像生成能力建立在三大核心优势上:精确渲染文本、精确遵循提示,以及利用其固有知识库与聊天上下文的能力。
通过我的测试,我将自己和马斯克的照片交给 GPT-4o,要求将我们放在访谈场景中,结果非常真实。随后我要求将风格改为皮克斯 3D 风格,又要求局部修改,模型都能很好地完成。更令人惊讶的是,当我仅仅提到”把右边的男人换成 Axton”时,GPT-4o 能够从上下文理解”Axton”指的是谁,并正确替换。这体现了它对语言的深度理解能力和多轮生成能力。因为图像生成是 GPT-4o 的原生功能,我们可以通过自然对话来优化图像,进行场景和人物的替换,模型能在聊天上下文中基于图像和文本构建,确保一致性。
文本渲染与世界知识的融合
GPT-4o 在文本渲染方面取得了重大突破,能够生成清晰、符合场景且具有创意的文字内容,这源于其多模态知识的融合能力。
以往的文生图模型在渲染文本时面临巨大挑战,而 GPT-4o 在这方面有了显著改进。OpenAI 博客中展示了一张两位女巫阅读街道标志的图像,标志上的文字不仅清晰,还融入了女巫主题的幽默元素(如”女巫扫帚停车位”和”驯鹿专用停车位”)。这种能力源于 GPT-4o 的世界知识与图像生成的深度融合。例如,当要求它画鲸鱼时,它会了解不同鲸鱼的特征,而不是简单拼凑图形。这种融合让 AI 的发展路径逐渐趋近人类认知方式,因为人类创造的 AI 参照的正是人类智能。
当前局限与未来展望
尽管 GPT-4o 在图像生成领域取得了重大突破,但仍存在裁剪不准确、模型幻觉、复杂场景处理困难以及非英文文本渲染等局限性。
我测试了 GPT-4o 的中文渲染能力,发现大字相对准确,但小字仍有困难。例如,在渲染”AI 精英学院”介绍文字时,小字部分出现了”为了解人工智能科研究”等不连贯表达。另外,在创建林黛玉、鲁智深和爱因斯坦对话的漫画时,虽然形象刻画得当,但林黛玉说的却是李清照的词。目前,GPT-4o 的图像生成功能已向 Plus 用户和 Pro 用户推出,使用非常简单。在网页端,默认绘图引擎已是 GPT-4o,用户还可以通过对话框下方的”创建图片”按钮强制其绘图,或通过打开图片并点击右上角按钮进行局部修改。
核心观点
- 原生多模态模型与传统模型的根本区别在于跨模态理解能力,GPT-4o 不仅能生成图像,而是真正理解内容并在文本与图像间建立知识连接
- 图像生成的交互方式已从单向提示转变为多轮对话式迭代,使创作过程更接近人类协作方式
- 文本渲染能力的突破解决了 AI 图像生成的长期痛点,特别是在创意内容和品牌设计领域
- GPT-4o 的世界知识与图像生成融合,使其能创建不仅视觉上合理,而且概念上正确的图像
- AI 发展路径正在逐渐趋近人类认知方式,这种趋势将持续直到 AI 能够自主改进自身
关键洞见
GPT-4o 的原生多模态能力不仅是技术上的进步,更代表了 AI 认知模式的根本转变:从模仿人类输出到模拟人类理解过程。这种转变使 AI 从”看起来像”到”实际理解”,打破了创意领域长期以来的认知壁垒——AI 可以生成美观内容但无法理解内容关系。这预示着我们正在从”工具型 AI”迈向”理解型 AI”的新时代,未来的创意工作将更多依赖于与 AI 的协作对话而非单向指令。
请点击观看原始视频:
GPT-4o 原生图像生成:多模态 AI 的突破性进展
GPT-4o 的原生多模态特性
GPT-4o 原生图像的发布再次展现出 AI 可以瞬间的抹杀掉一个人类行业的能力,这简直就是第二个 Deep Research 的时刻。你好,欢迎回到 Axton。
大家可能没有注意到,GPT-4o 图像发布的博客文章里面有这么一句话:”原生图像生成使 4o 能够将其知识在文本和图像之间连接,从而产生一个感觉更智能,更高效的模型”。这就是因为 GPT-4o 它是一个原生的多模态模型。
那什么是原生的多模态模型?这跟之前的有一些生图的模型有哪些不一样呢?所谓的多模态就是文本、语音、图像等等。那一个原生的多模态模型呢,它在设计和训练的阶段就具备了处理这种多种数据类型的能力了。简单理解就是它的输入输出都具有多模态的处理能力,并且关键是它在这些多模态和跨模态之间的能力。
而一些非多模态的模型,它的语言模型和图像生成是分离的,所以它生成图像的时候呢,往往会缺乏真实的理解,它只是凭视觉的纹理来拼凑出看似合理的图像,所以就会生成很多不合逻辑的图像结果。
而 GPT-4 的多模态它相当于同时的输入了文字、语音、图像等等这些各种各样的数据,所以它具备了人类的一个知识的理解能力。关键是它可以在这些多模态之间具有跨模态的迁移的能力,所以它的重点在于它是真正的理解内容,而不仅仅是模仿视觉。
GPT-4o 图像生成的实际效果
我们可以先来简单的看一下它的效果,在推特上已经晒出了很多的梗图,我们可以来看一下。比如这种经典的梗图,这种吉布利的风格,这两天已经是火遍了推特。还有各种风格的效果,两个图像的融合,新的梗图。更夸张的是,还有人直接用生成的图片来做出了一个指环王的预告片。
接下来我们按照惯例,来快速的浏览一下 OpenAI 的官方博客的重点。在 OpenAI 的官方博客上面,它已经介绍了各种各样的例子,各种各样的风格的例子,建议大家可以去看一下。
首先开篇第一句话:”图像生成不仅美丽,而且实用”。那接下来我们就会感受到这两点。那首先无图无真相,图像的实用性是显而易见的。那么 GPT-4o 为什么它能做到不仅仅漂亮,而且实用呢?这就来自于它的一个很重要的特点,就是准确渲染文本,精确遵循提示,以及利用 4o 固有的知识库和聊天上下文的方面表现出色的这个能力。
实际测试与功能展示
我们先来看我的一个测试过程。我把我的照片和马斯克的照片呢交给 GPT-4o,然后说把这两个人放到一个访谈的场景当中。生成的结果就是这样,场景很真实,照片的质感呢也很不错,而且根据我的正面相推测出了我的侧面相,虽然有点不太像,而且它的手指还是有一定的瑕疵。
那接下来呢,我们是让它把访谈的风格改成皮克斯的 CG3D 的风格,皮克斯风格。然后我又给它一张照片,告诉它把右边的人改成这个。这就是它改变后的结果,背景也进行了相应的改变。
那接下来呢,我让它把左边的人改得更像 Elon Musk 一些。但是呢,它生成这张新的图片的时候,把我背后的文字改成了 talk,所以我就圈出这个文字,然后告诉它,这个文字呢是 Axton。接下来,它就把后面的这个文字改成了 Axton。
所以说 GPT-4o 它画的图呢是可以局部进行修改的,但是呢,局部修改,它实际上依然是重新画了整张图。我们可以看到细节上的一些差别,比如手部的差别,但是这个一致性保持的还是相当不错的,差别并不是很大。
下面重点来了,我给了它一张这个 OpenAI 博客上的图片,然后我说,把右边的男人换成 Axton。这就是他换成的结果。那实际上呢,这里面就体现了 GPT-4o 它对图片和聊天的理解能力。我唯一一次提到 Axton 的地方就是让他把这个词换成 Axton,还有告诉过他另外的这个人是伊隆·马斯克,所以他实际上就知道了谁是 Axton。
那测试的过程很简单呀,但是这个过程所展示的呢,实际上就是他的博客当中描述的三个能力了:精确的遵循提示,对语言的理解能力,还有多轮生成。后面提到的多轮生成,正是因为图像生成是 GPT-4o 的原生功能,所以我们可以通过自然对话来优化图像,就像大家刚才看到的,我们实际上可以对对话进行局部的修改,可以让他换场景换人物。GPT-4o 它可以在聊天的上下文当中,基于图像和文本进行构建来确保一致性,我们刚才也看到了,刚才的一致性保持的还是很不错的。
文字渲染能力的突破
那他还有一个很重要的能力呢,特点呢,就是他的文字渲染能力了。咱们在以前那些文生图的模型呢,其实写文本是一个老大难的问题,而 GPT-4o 的文本渲染,可以说改进很大。这个是他们博客当中的一张图片呀,这个很好的体现了他的多模态的一个综合能力。
我们可以看一下,这个图片的提示呢,就是说创建一幅逼真的图像,描绘两位二十多岁的女巫,一个是灰色的渐变发色,一个是长波浪型的红褐色的头发,在阅读街道标志。这个图片上的文字非常的清晰,而且很有意思,从上到下咱们挨个看一遍:
第一个,周一到周四,十一点到十二点半之间,禁止临时停车,这都是正常的停车标志。然后上午七点到晚上,晚上七点是计时停车,而且只允许商业的车辆,其他的车辆禁止停车。那第三个开始就是,这是女巫的扫帚的停车位,C 区禁止停放,然后魔毯装卸专用,只能在这停 15 分钟,从魔毯上装卸东西。那最后一个是驯鹿,就是驯鹿的专用停车位,仅限持证者使用,而且是 12 月 24 号到 25 号,如果是违规者将会被列入到淘气名单。
所以这个是一个非常不错的一个图片,文字相当的精准,而且适合场景,还有一定的幽默感。在他的博客当中呢,有各种各样图像的效果和例子,大家感兴趣可以来看,包括他还能设计出一个三角形车轮的车辆,并且把它放到了纽约市的一个照片里面,把图片变成一张照片。
世界知识与多模态连接
这边就是他的世界知识,也是我们刚开始一上来就看到了那个,就是因为它是一个原生的多模态,所以它可以在文本和图像之间产生连接,它并不是一个割裂的一个事情,这就会让人觉得它是一个更智能的一个模型了。你比如说画鲸鱼,它会知道不同的鲸鱼的特征,所以它并不是一个很简单的用图形拼凑出来的这么一个结果。
其实呢,这就跟人类学习和认识世界一样,AI 的发展路线,它必然会逐渐地趋近人类,因为人类它创造的 AI,所参照的就是人类的智能,这也是人类所能见到过的最高级的智能了。至于等到 AI 能够自己改进自己的时候,那那个我们就无法想象了。
当前的局限性
当然目前 GPT-4o 呢,它也有一些局限性,比如它在裁剪,长图的裁剪方面,可能裁剪得不准确,还有它固有的模型的幻觉,然后当元素,当物体比较多的时候,它也可能会出现问题,对于精确的图形,也有一定的困难。
还有它的语言渲染,文本渲染,它的英文渲染得很好,但是中文还会有一些不准确,但已经相当不错了。我们可以去看一下它的中文渲染的效果,比如这边,这是它的博客上面的一个示例 prompt,然后我把它的标志改成 Axton,然后用中文书写关于 AI 精英学院的介绍。
这就是中文的效果,手写的中文效果。AI 精英学院这种大字它写起来是相对来说准确一些,小字就困难一些:”为了解人工智能,科研究,什么发,和,人才培养,贯彻,落实,落物实,努力,本科,面,物,基层,记起,推推人,讲,愿,意”。
中文效果,还有这样的一个中文效果:当林黛玉、鲁智深和爱因斯坦碰到一起的时候,他们会有怎么样的对话呢?林黛玉:”花自飘零水自流”,虽然说的是李清照的词,但是也还算符合身份吧。鲁智深:”酒肉穿肠过”,爱因斯坦:”E=mc²”,漫画风格。
使用方法
目前 GPT-4o 的图像生成功能呢,它已经向 Plus 用户和 Pro 用户啊等等都推出了。使用起来很简单,在网页端,它默认的绘图引擎就已经是 GPT-4o 的绘图引擎了。当然你也可以手工的,在对话框下面选”创建一个图片”来让它去强制它去画图。
而修改图片呢,只要我们打开图片,我们就可以点击右上角的按钮,然后擦除某一个部分,告诉它你需要做什么样的修改就可以了。大家可以充分地发挥一下自己的想象力和创造力了。
好,今天的视频就到这里,咱们下期再见。