「GPT-4o vs GPT-4」免费的比收费的更强?不科学啊!OpenAI 旗舰模型全面评测 | 回到Axton | 回到Axton

大家好,欢迎回到 Axton 的频道。AI 领域的发展日新月异,都说新发布的 GPT-4o(更新至 2025-05)比之前的 GPT-4 Turbo(更新至 2025-05)强出一大截,甚至在不少 AI 模型排行榜上,GPT-4o 已经悄然登顶。但在我日常的使用体验中,感觉它们更像是各有千秋。为了给大家一个更严谨的答案,今天,我将对这两位 AI 界的”当红炸子鸡”进行一次全方位的硬核对决,看看 GPT-4o 是否真的全方位碾压,亦或是我会被现实”打脸”。

编码对决:俄罗斯方块挑战赛,GPT-4o 一鸣惊人

在编程能力上,GPT-4o 的表现简直可以用”惊艳”来形容,直接碾压了 GPT-4。

我首先向 GPT-4o 发起了挑战:”你能用 Python 编写一个俄罗斯方块游戏吗?” 它不仅响应迅速,代码生成速度也相当快。片刻之后,代码便完成了。我将代码复制到 VS Code 中,新建了一个名为 game4o.py 的文件,粘贴并运行。令人惊喜的是,游戏一次成功运行,经典的俄罗斯方块界面跃然屏上,并且可以用键盘流畅地操控方块的左右移动和翻转。唯一的小瑕疵是游戏窗口略宽,不太符合我的操作习惯。

于是,我向 GPT-4o 提出了修改请求:”运行得很好,但是画面太宽了。” 它立刻心领神会,迅速调整了屏幕尺寸参数,将宽度设定为 300 像素,高度为 600 像素。我再次将修改后的代码覆盖到 game4o.py 文件中并运行,一个完美的俄罗斯方块游戏界面便呈现出来。我试玩了一下,方块的消除逻辑完全正确,游戏体验非常棒。坦白说,GPT-4o 在编码任务上首次尝试就能达到如此高的准确率,确实让我刮目相看,即便我的俄罗斯方块技术实在不怎么样,也能愉快地玩到游戏结束。

接下来,我切换到 GPT-4(更新至 2025-05),在新的会话中提出了同样的请求。GPT-4 也表示可以完成,并同样选择了 Pygame 库,甚至贴心地提示了如何安装该库。然而,它的代码生成速度明显慢于 GPT-4o。代码完成后,我创建了 game4.py 文件并运行,结果一上来就报错,提示 Colors 里面的 Orange 未定义。我没有尝试自己调试,而是直接将错误信息反馈给 GPT-4。它识别了错误并给出了修改方案,增加了橙色、粉色和紫色的定义。我按指示修改后再次运行,又出现了新的错误。我再次将错误信息贴给它,并小小地抱怨了一下。在 GPT-4 再次给出修改方案后,我更新了代码,但运行时窗口闪了一下便再次出错。至此,我已经不想再继续折腾了。结论非常明显:在这次编码测试中,GPT-4 惨败,改了两次代码依然无法正常运行,这着实出乎我的意料。

长文阅读与数据分析:GPT-4o 凭借新功能更胜一筹

对于长篇 PDF 文档的处理和数据分析能力,GPT-4o 凭借其最新的数据分析功能(更新至 2025-05),展现出了更为现代和便捷的优势。

为了测试这项能力,我决定让它们从特斯拉的年报中提取收入数据并制作成表格。我首先通过 Perplexity 找到了特斯拉 2023 年年报的 PDF 下载链接,这是一个长达 130 页的文档,其收入数据大致在第 38 页。我将这份 PDF 文档首先上传给了 GPT-4o,并指示它:”附件是特斯拉 2023 年年报,请提取收入数据,并整理成一个电子表格。” 经过几次内部尝试后,GPT-4o 成功提取了数据,并生成了一个可供下载的 Excel 表格。我下载并打开表格,与 PDF 原文对比后,发现数据基本准确无误。为了方便查看,我还让它将表格翻译成了中文,诸如”汽车销售”等条目清晰明了。

基于提取的数据,我进一步要求 GPT-4o:”请根据特斯拉的收入报表,做出你认为最炫酷的对比图形。” 它很快生成了一个非常漂亮且可交互的图表,用户甚至可以更改图表的颜色,或者打开图表进行更细致的操作。这正是 ChatGPT 最新升级的数据分析功能(更新至 2025-05),非常强大和实用。关于这个功能的详细介绍,我在之前的视频中已经有过深入分析,这里就不再赘述。

随后,我将同样的任务交给了 GPT-4。它也顺利地从年报中提取了收入数据,并生成了一个 CSV 文件。打开文件后,我发现数据也是准确的,只是其行列组织方式与 GPT-4o 生成的表格恰好相反,它选取的是按主要来源计算的收入数据表格。虽然两个模型提取的是不同角度的收入数据表,但数据本身都是正确的。在制图方面,GPT-4 也能生成图表,但视觉效果上不如 GPT-4o 的那么精美,并且中文字符未能正常显示(当然,这可以通过提供中文字体解决,并非本次测试重点)。值得注意的是,ChatGPT 最新的数据分析功能(更新至 2025-05)目前仅在 GPT-4o 模型下可用。在 GPT-4 中,如果上传 Excel 文件,它会作为附件显示,而不会直接嵌入为可交互的表格。因此,在长文 PDF 数据提取方面,两者旗鼓相当,但 GPT-4o 凭借其先进的数据分析功能在体验上更胜一筹。

完整视频请点击观看:
https://youtu.be/gdQAid5DOhc

文本生成综合比拼:GPT-4o 与 GPT-4 各擅胜场

在文本生成方面,我设计了一系列不同维度的测试,包括担当裁判、识别图片情绪、创作诗词以及现象分析,结果显示两者各有亮点。

担当”裁判”:斯嘉丽·约翰逊 (Scarlett Johansson) vs OpenAI 事件评判

在扮演”裁判”角色,评判斯嘉丽·约翰逊 (Scarlett Johansson) 与 OpenAI 争议时,两者的表现各有千秋,但 GPT-4o 的结构化输出更易于阅读。

我首先向 GPT-4o 提供了事件简介,并要求它上网搜索详细信息进行评判,表明立场。GPT-4o 搜索了 4 个网站后,清晰地概述了背景:OpenAI CEO 山姆·阿尔特曼 (Sam Altman) 曾邀请斯嘉丽为其 GPT-4o 提供语音但遭拒,随后 OpenAI 发布会上推出的 SKY 声音被指与斯嘉丽声音高度相似,引发斯嘉丽发出律师函,最终 OpenAI 暂停使用该声音并发布博文解释采样过程。GPT-4o 的评判倾向于支持斯嘉丽,认为未经授权使用或模仿名人声音构成不尊重和侵权,同时也提及若 OpenAI 所言属实(非故意模仿),法律上可能未违法,但赞赏其暂停使用的负责任做法。

同样的任务交给 GPT-4,它搜索了 6 个网站后给出了回复。GPT-4 的背景解释更为简洁,评判时则显得更为”圆滑”,没有明确站队,但字里行间也流露出对斯嘉丽团队反应的理解,特别是考虑到她曾明确拒绝。GPT-4 强调 OpenAI 采取了负责任的措施。从回复结构上看,GPT-4o 的内容层次分明,易于阅读;而 GPT-4 虽然简洁,但我个人更欣赏其逻辑的流畅性和对核心矛盾的把握,尤其那句”约翰逊团队的反应是可以理解的,特别是如果声音确实跟他非常相似,而且此前他已经明确拒绝了 OpenAI 的使用请求”,直指问题关键。

图像解读:人物表情识别的细微差异

面对一张包含复杂情绪的图片,GPT-4o 对人物表情的解读似乎更胜一筹。

我用了一张在推特上引发讨论的图片,分别让两个模型描述图中人物的心情。GPT-4 描述左边的女士”表情显得既优雅又冷静,目光直视镜头,嘴唇涂有鲜艳的红色唇膏,带有一种正视和自信的氛围”,而右边的男士则”表现出一种惊讶和困惑的表情,眼睛睁得很大,嘴巴微张,给人一种突然被问到一个难以回答问题的感觉”。

GPT-4o 的解读则是:左边的女性”显得庄重却自信,她的表情严肃且目光坚定,可能是在出席某个正式活动”,右边的男性”表情则显得略带紧张或尴尬,她的眼神向上看,嘴角微微裂开,可能是遇到了让她感到不自在的情况”。对比之下,我认为 GPT-4o 的描述”庄重自信”与”紧张尴尬”更为精准地捕捉到了图片中人物情绪的对比和细微之处,因此在这一轮我更倾向于 GPT-4o。

诗词创作:GPT-4o 才情尽显,GPT-4 稍逊风采

在诗词创作这一中华文化的瑰宝领域,GPT-4o 展现了令人拍案叫绝的才华,而 GPT-4 则显得有些力不从心。

我先出了上联”寒塘渡鹤影”让它们对下联。GPT-4o 对出”暖树栖凤声”,遵循了”冷对热,黑对白”的对仗思路。接着,我给出一张含有”植物大战僵尸”中僵尸形象的图片,设定情境为一个中年男人看到图片,脑海中浮现”念去去千里烟波,暮霭沉沉楚天阔”的词句,并要求它们仿照此词风格创作一首描述当下心情的词。

GPT-4o 的作品令我大为惊艳:”忆昔年,繁花似锦,春光无限好。奈何岁月催人老,旧梦难追,千里烟波渺。举目苍茫,霜染鬓,沉沉暮霭锁心潮。身如这路人,伫立门前,怅惘无从道。长风几度,吹尽往事影,何处是归巢?多少风雨悲欢离合,只道是,岁月无情早。听夜雨滴滴心声绕,只愿他年梦一场,笑看天高云淡,水远山遥。” 这首词意境深远,情感真挚,完全超出了我对 AI 创作能力的预期。

相比之下,GPT-4 在对对子时,直接给出了原著中的”冷月葬花魂”,虽然经典但缺乏原创性。而在情景作词环节,GPT-4 最初写出的”画中怪物显恐怖,万古孤寂无人识。风吹杂草,萧萧起,心头忽觉幽愁逼”则显得有些”一言难尽”,更像是诗而非词。在我提示它诗与词的区别后,它重新创作了一首:”遥望断桥留孤影,疏星如点,夜凉如水。梦回何处,空余泪。心事浓于酒,细雨蒙蒙,湿衣襟。碎步轻移,风卷残云。情归何处,一片愁云。愁绪难舒,怀中事。” 这次虽然更像词了,但与 GPT-4o 的作品相比,仍有不小的差距。

现象分析:全民基本收入(UBI)的探讨

针对全民基本收入(UBI)这一复杂社会现象的分析,GPT-4 凭借其选择的思维模型和论证深度,略占上风。

我提出的问题是:当 AI 替代越来越多人类工作后,UBI 政策可能导致低薪工作者离职,引发服务业用工荒,UBI 是否会成为”懒人福利”?请选择思维模型分析。GPT-4o 选择了激励理论和系统思维,从正反两方面探讨 UBI 对人的激励(可能让人追求热爱或产生依赖),并分析其对社会经济系统的影响,结论是 UBI 是一个复杂的系统问题。

GPT-4 则选择了供需平衡模型。它分析了 UBI 对劳动力市场供给的影响(短期减少,长期可能提升劳动力素质),以及对需求的影响(服务业劳动力短缺,但消费需求可能增加)。它还探讨了市场调整机制(企业寻求自动化,推动技术升级)和配套设施的必要性。GPT-4 的结论是 UBI 并非简单懒人福利,而是可能促进经济社会长期健康发展的工具。在这一轮,我个人更倾向于 GPT-4 的分析框架和论证深度。

推理能力测试:烧绳子计时难题

在经典的烧绳子计时推理题上,经过逐步引导,GPT-4o 最终成功解题,而 GPT-4 则在逻辑上显得有些混乱。

问题是:一根不均匀的绳子从头烧到尾需 1 小时,如何用烧绳子方法计时 45 分钟?GPT-4o 的回答是:同时点燃绳子 A 的两端和绳子 B 的一端。A 在 30 分钟烧完,此时点燃 B 的另一端,B 剩下的部分会在 15 分钟内烧完,总计 45 分钟。GPT-4 的回答逻辑与此一致,两者均正确。

随后我将问题进阶为如何实现 75 分钟计时。GPT-4o 的方案是:同时点燃绳子 A 和绳子 B 的一端(各需 60 分钟烧完)。A 烧完时(60 分钟),立刻点燃绳子 C 的两端(C 烧完需 15 分钟)。这个逻辑显得很奇怪,因为它没有解释 C 如何能精确计时 15 分钟。GPT-4 的方案也陷入了混乱,涉及到三根绳子和复杂的点燃顺序,逻辑上难以自洽。

我尝试给出提示:”你已经知道了如何实现 45 分钟计时,那么实现 75 分钟计时,你还需要额外计时多长时间?” 两者都正确回答出还需要 30 分钟。但我进一步要求它们基于此拆解任务时,GPT-4o 经过再次提示(如何实现 30 分钟计时:同时点燃一根绳子两端),最终给出了正确的组合方案,总算理清了思路。而 GPT-4 即便在提示下,其后续逻辑依然奇葩。这一轮,在引导之后,GPT-4o 胜出。这里也体现了提示工程 (Prompt Engineering) 的重要性,将复杂任务拆解能显著提高语言模型的准确率。如果你想了解更多提示工程技术,可以关注我精心打造的 AI 基础能力课程,相关链接在描述栏中。

更多细节可参考我的上一篇文章 👉 GPT-4o 原生图像有多狠?多模态时代,AI 开始懂的融汇贯通了!| 回到Axton

GPT-4o vs GPT-4:谁是最终赢家?

综合各项测试来看,GPT-4o(更新至 2025-05)在多数场景下展现出超越 GPT-4(更新至 2025-05)的能力,尤其在效率和特定创新功能上。

回顾整个比拼过程:在编程写代码方面,GPT-4o 完胜;阅读长篇 PDF 提取数据,两者旗鼓相当,但 GPT-4o 凭借其先进的数据分析功能在体验上占优;上网查信息当裁判,GPT-4 略胜一筹;识别图片人物表情,GPT-4o 稍占优势;生成诗词,GPT-4o 完胜;对于全民基本收入的分析,GPT-4 表现略好;经典的推理数学题,在经过两轮提示后,GPT-4o 胜出。

因此,从总分来看,GPT-4o 无疑要强于 GPT-4。在大部分日常使用场景下,GPT-4o 应该能够满足绝大多数用户的需求。不过,我仍要补充一句,虽然我日常大部分情况也会使用 GPT-4o,但如果遇到需要多轮深度沟通、探讨复杂问题的场景,我个人还是会倾向于选择 GPT-4,感觉它在某些特定对话的连贯性和深度上仍有其独到之处。

全局性核心要点总结

通过这次全面的 GPT-4o vs GPT-4 对比测试(更新至 2025-05),我们可以清晰地看到 AI 技术正以前所未有的速度迭代。GPT-4o 在执行效率、多模态交互(如其原生的图像处理能力,我在另一篇文章中有详细介绍)以及特定创新功能(如高级数据分析)方面,确实展现了显著的进步,这使得它在许多任务上成为更优选。然而,GPT-4 在某些需要深度逻辑推理和 nuanced 理解的文本任务中,依然宝刀不老,显示出其成熟模型的底蕴。最终模型的选择,并非绝对的”谁取代谁”,而更应基于具体的使用场景和任务需求,理解它们的各自优势,才能最大化发挥其潜能。同时,有效的提示工程技巧,对于驾驭这些强大的 AI 工具,获取高质量输出至关重要。

独特深度洞见

AI 模型的发展,如今已不仅仅是参数量和性能指标的竞赛。我们更应关注的是,它们如何更深刻地理解人类意图,并以更自然、高效的方式融入我们的工作与生活。GPT-4o 在代码生成的一次成功、诗词创作的惊艳以及数据分析的便捷性上所展现出的”直觉”与”效率”的跃升,预示着 AI 正从单纯的”工具”向更智能的”伙伴”转变。未来,AI 或许能更好地预判我们的需求,主动提供协助,真正实现与人类智慧的协同进化,而不仅仅是被动地执行指令。

希望今天的分享对大家有所帮助。我是 Axton,如果你喜欢我的内容,请不吝点赞、评论、订阅我的频道并开启小铃铛,我们下期再见!

掌握系统化思维,构建你的AI智能体

工具思维跨越到智能体思维,掌握系统化的方法论与AI智能体构建能力,构建可迁移的AI自动化技能,随时适应新需求!

7 阶实战体系,一步步带你从零基础到高阶自动化

◆ 立即节省2小时以上的重复劳动,效率提升10倍!

◆ 现在订阅,限时享受独家优惠,解锁你的AI竞争优势!



立即开启AI智能体进化之旅 →

Axton二维码

扫码关注获取更多资源

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部