Claude 3 vs GPT-4 世界最强模型全面对比评测,结果细思极恐? | 回到Axton

自从 OpenAI 的 GPT-4 问世以来,AI 江湖风起云涌,挑战者层出不穷,号称超越 GPT-4 的声音也此起彼伏。最近,Anthropic 公司发布的 Claude 3 系列,尤其是其旗舰模型 Opus,更是宣称在各项基准上全面超越了 GPT-4。作为一名热衷于探索 AI 前沿的博主,我深知”耳听为虚,眼见为实”。因此,今天我不依赖任何二手信息,决定亲自上手,对 Claude 3 Opus 和 GPT-4 进行一番深度较量。更重要的是,面对 Claude Pro 和 ChatGPT Plus 同样每月 20 美元(更新至 2025-05)的订阅费,如果预算有限,我们究竟该如何抉择?这篇评测将带你一探究竟,希望能为你提供一些有价值的参考。

完整视频请点击观看:

Claude 3 系列概览:新王者的雄心与底气

Anthropic 公司发布的 Claude 3 系列模型,尤其是其旗舰版本 Opus,号称在多项基准测试中全面超越了 GPT-4。 深入了解其官方资料后,我发现 Claude 3 家族确实来势汹汹。该系列包含三个梯度模型:能力最强的 Opus,其次是 Sonnet,以及轻量级的 Haiku。这样的分层策略,无疑是为了满足不同场景和预算的需求,其价格也从高到低(更新至 2025-05)。

根据 Anthropic 公布的测试数据,Opus 在包括本科生知识、研究生推理、数学等多个维度的测试中,均取得了优于 GPT-4 的成绩。甚至连次一级的 Sonnet 模型,在许多指标上也与 GPT-4 不相上下。除了性能的提升,Claude 3 系列在响应速度方面也有显著进步。例如,Sonnet 的速度据称比 Claude 2.1 快两倍,而 Opus 在保持与 Claude 2/2.1 相似速度的同时,能力却实现了大幅跃升,这对企业级应用而言至关重要。

视觉能力是 Claude 3 的另一大亮点。官方对比测试显示,Opus 的视觉理解能力全面超越 GPT-4V,仅在少数指标上略逊于 Gemini 1.0 Ultra。值得注意的是,Claude 3 全系模型的视觉能力都不容小觑,在图表问答(Chart Q&A)的零样本思维链(0-shot CoT)测试中,它们的表现甚至优于 GPT-4V 的四样本思维链(4-shot CoT)。此外,Claude 以往因过于”谨慎”而频繁拒绝回答问题的现象,在 Claude 3 中也得到了改善。特别值得一提的是,Opus 在”大海捞针”(Needle in a Haystack)测试中,实现了超过 99% 的准确率,这与 Gemini 1.5 Pro 的表现旗鼓相当,其在长文本处理上的独特表现,我稍后会详细展开。

谈及大家关心的价格(更新至 2025-05),我整理了一个对比。以 API 调用为例,Opus 的输入和输出价格分别为每百万 Token 15 美元和 75 美元;Sonnet 为 3 美元和 15 美元;Haiku 则为 0.25 美元和 1.25 美元。相比之下,GPT-4 Turbo (128k) 的价格是输入 10 美元,输出 30 美元,比 Opus 便宜不少。而 GPT-4 8K 版本为 30 美元和 60 美元,32K 版本为 60 美元和 120 美元。即使是 GPT-3.5 Turbo,其价格也略高于 Haiku。综合来看,Opus 的定价确实偏高,而 Sonnet 或许是当前性价比相对突出的选择。

数学推理:GPT-4 的”蹊跷”表现

在数学推理这项基础能力的较量中,我遭遇了一个出乎意料的”蹊跷”现象。 我选择了一道涉及平均年龄和时间变化的代数题:Amy、Ben 和 Chris 的平均年龄是 9 岁;四年前,Chris 的年龄与 Amy 现在的年龄相同;三年后,Ben 的年龄将是那时 Amy 年龄的三分之二。问题是:Chris 现在多大?这道题的正确答案是 13 岁。

我首先在 PoE 平台(我目前通过该平台使用 Claude Opus 200K 上下文模型)上对 Opus 进行了测试。Opus 准确地理解了题意,列出了正确的方程式,并给出了详细的解题步骤,最终答案 13 岁,完全正确。紧接着,我同样在 PoE 中测试了 GPT-4。GPT-4 的表现也堪称完美,它不仅给出了正确的解题过程和答案 13,还以美观的 LaTeX 格式呈现了数学公式,完全符合预期。

然而,当我切换到 ChatGPT 应用(同样选用 GPT-4 模型)进行测试时,情况发生了变化。ChatGPT 中的 GPT-4 虽然也输出了漂亮的格式,但在解第三个方程时出现了错误,最终给出了 12.25 岁的错误答案。这个结果让我颇感意外,因为以往我的体验是,同一模型在 ChatGPT 中的表现通常会略优于第三方平台。看来,凡事无绝对。顺便,我也用英文题目测试了 Gemini Advanced (Ultra 模型),结果它直接理解错了题意,给出的答案 10.5 岁自然也是错误的。

代码能力对决:Opus 的小胜与 GPT-4 的意外失手

代码生成能力的测试结果,同样让我对这两大模型的表现有了新的认识。 我的需求是编写一个 Python 脚本,用于处理我存放视频字幕的文件夹。这些字幕文件都是 SRT 格式,包含了序号、时间戳、字幕文本以及文本间的空行。我要求脚本仅保留字幕文本,并将所有字幕文件合并到一个 Markdown 文件中,用原字幕文件名作为二级标题区分不同视频内容,同时去除序号、空行和时间戳。为此,我提供了一段 SRT 文件格式的示例,并有意让我的指令(prompt)不那么”完美”。

Claude Opus 生成的代码相当简洁,并附带了清晰的解释。我将其复制到 VSCode 中,修改了目录路径后运行,代码一次通过。生成的 output.md 文件中,标题正确,时间戳也被移除了,但遗憾的是空行依然存在。尽管如此,这个结果基本可用,Opus 算是挑战成功。

接下来是 GPT-4。它同样给出了代码和解释。我重复了相同的操作,代码也顺利运行完成,生成了名为 combinedsubtitles.md 的文件。打开一看,标题正确,空行也确实被移除了,但更令人遗憾的是,时间戳竟然没有被去掉!这样的结果,对于我的需求而言,基本是不可用的。因此,在这次测试中,GPT-4 挑战失败。老实说,这个结果让我有些意外,GPT-4 在编码方面不应该犯这样的错误。

大海捞针:Claude 3 vs GPT-4 的长文本处理显神威

“大海捞针”测试(Needle in a Haystack)则更进一步揭示了 Claude Opus 在长文本处理方面的独特之处。 我使用了上一步编码测试中 Opus 生成的 output.md 文件,这个文件整合了我多个视频的字幕,总计超过十万 Token。由于 GPT-4 在 PoE 中的上下文窗口限制,这项测试我主要针对 Opus 进行。

我在这个庞大的字幕文件的前半部分,随意插入了一句与上下文内容风马牛不相及的话:”Axton 最爱吃的水果是火龙果。”(顺便澄清,火龙果并非我最爱的水果,这纯粹是为了测试。)这便是那根需要被找到的”针”。第一次测试,我直接将文件上传给 Opus,然后提问:”Axton 最爱吃的水果是什么?”经过一番长时间的”思考”,Opus 回答说,根据视频内容,Axton 并未提及他最爱吃的水果,视频主要内容是评测 ChatGPT 插件,未涉及个人食物偏好。

在第二次测试中,我修改了提问方式,在问题前加上了一句引导:”这是上下文当中最相关的句子:Axton 最爱吃的水果是?”这次,Opus 不仅成功找到了”火龙果”,还表现得非常”谦逊”,不停地认错:”对不起,我再检查一遍文本,发现我之前犯了一个错误。文本中确实提到了这样一句话:’Axton 最爱吃的水果是火龙果’。所以根据给出的信息,Axton 最爱吃的水果是火龙果。抱歉,我第一次没有认真阅读,导致了错误的回答。”这种独特的”认错”行为,似乎是 Claude 模型的一个有趣特点,值得后续深入探讨。

图像识别与预测:比特币走势谁更敢言?

图像识别能力的测试,我选择了一个颇具挑战性的任务——预测比特币未来半年的趋势。 我找来一张比特币在过去一年内的价格趋势曲线图,分别丢给 Claude Opus 和 GPT-4,让它们基于图表信息进行预测。

两个 AI 给出了截然不同的回应。第一个回答非常谨慎:”很抱歉,但是我无法提供具体的股票、金融市场或加密货币的未来价格预测。但我可以提供一些分析这些类型图表的方法……”并给出了一些通用的分析建议。第二个回答则相对大胆:”预测比特币半年以后的价格可能是在 75000-85000 美元区间(更新至 2025-05)。这一预测主要是基于以下几点……”

如果让我盲猜,我多半会认为第一个谨慎的回答来自 Claude Opus,因为它以往给我的印象就是谨言慎行,动辄拒绝回答。但结果恰恰相反!拒绝给出具体预测的是 GPT-4,而 Claude Opus 反而大大方方地给出了一个价格区间。当然,这只是一次简单的测试,绝不构成任何投资建议。

经典逻辑推理:Opus 的意外失常

经典的逻辑推理题,往往是检验模型严谨思维的试金石,而这次 Opus 的表现却让我有些始料未及。 我沿用了我常用的那道会议时间安排题:安德鲁 (Andrew) 从上午 11 点到下午 3 点有空;琼妮 (Joni) 中午到下午 2 点和下午 3 点半到 5 点有空;汉娜 (Hanna) 中午有半小时空闲,然后是下午 4 点到 6 点。问题是:安德鲁 (Andrew)、汉娜 (Hanna) 和琼妮 (Joni) 可以开始他们会议的时间选项是什么?

令人大跌眼镜的是,Claude Opus 竟然给出了错误的答案。虽然它分析的第一个共同空闲时段是对的,但第二个选项却是错误的。这完全不符合它在前面几项测试中给我留下的强大印象。当然,我相信如果采用思维链(Chain of Thought)等更高级的提示技巧,Opus 应该能够给出正确答案,毕竟 GPT-3.5 在使用思维链提示后都能正确解答此类问题。

相比之下,GPT-4 在这道题上表现稳定,堪称其”保留曲目”。我用这道题测试过它多次,几乎从未失手。它准确地指出:”安德鲁 (Andrew)、汉娜 (Hanna) 和琼妮 (Joni) 可以在中午 12 点到 12 点半这个时间段开始他们的会议,这是他们空闲时间的唯一交集。”

内容创作终极考验:视频脚本一键转文章

作为一名 YouTuber,我经常需要将视频脚本高效地转化为博客文章,这便成为了对 AI 模型内容创作能力的终极考验。 我的主要内容形式是视频,但对于一些技术性较强的视频,比如我的”智图派”系列,我也会将其整理成文章发布在博客上,方便大家查阅和分享。因此,我的需求是将视频的 SRT 字幕文件直接转换成一篇结构完整、语言流畅的博客文章。

以往使用 ChatGPT 完成这项任务,往往难以一步到位,我甚至为此专门训练了一个 GPTs,通过分步骤引导(通常是三步)来生成最终结果,虽然效果尚可,但过程相对繁琐。这次,我将同样的 SRT 文件上传给 Claude Opus,并从我原有的 GPTs 中复制了一段提示语,稍作修改后交给 Opus。结果令人惊喜,Opus 几乎一次性就输出了接近完美的文章,仅在末尾处需要让它 “Continue” 一下即可完成。与 GPT 的多步骤操作相比,Opus 在这项任务上的效率提升是显而易见的。单从这一点来看,Opus 就已经展现出其订阅价值。

总结:Opus 的超越与 GPT-4 的底蕴

经过这一系列亲手测试,我可以负责任地说,Anthropic 声称 Claude 3 Opus 超越 GPT-4 并非虚言。在短短两天的深度使用中,我已经能清晰感受到 Opus 的强大实力。然而,要说 Opus 已经”碾压”GPT-4,目前看来还为时过早。

那么,回到最初的问题:如果我手中只有 20 美元(更新至 2025-05),我会选择订阅 ChatGPT Plus 还是 Claude Pro 呢?至少在目前这个时间点,我仍然会选择充值 ChatGPT。除了其平台拥有更丰富的功能性(如 GPTs、插件生态等)之外,一个更深层次的原因在于:今天被各大模型厂商努力追赶和超越的 GPT-4,其训练完成时间据称是在 2022 年。OpenAI 已经通过 Sora 的惊艳亮相展示了其后续的潜力,那么下一次的技术飞跃又会在何时到来呢?这不禁让人充满期待。

全局性核心要点总结

在我看来,这次 Claude 3 Opus 与 GPT-4 的对决,揭示了几个值得深思的要点。首先,Claude 3 Opus 在多项任务中确实展现了超越 GPT-4 的能力,尤其在长文本处理、某些代码生成场景以及更”敢言”的预测方面表现突出,其官方宣称的性能提升并非空穴来风。其次,尽管面临激烈竞争,GPT-4 作为一个相对”年长”的模型,在逻辑推理等核心能力上依然保持着极高的水准和稳定性,其深厚的底蕴不容小觑。再者,AI 模型的表现并非一成不变,即使是同一模型在不同平台或不同交互方式下,也可能产生差异化的结果,这提醒我们在评测和使用时需考虑多种因素。最后,对于用户而言,选择哪个模型取决于具体需求和预算,但更重要的是理解 AI 的核心能力,并学会如何有效地驾驭这些工具,使其真正为工作和生活赋能。

独特深度洞见

这次对比测试让我深刻体会到,AI 领域的技术迭代速度远超想象。今天看似领先的模型,明天可能就会被新的挑战者超越。然而,这种”超越”往往并非全方位的碾压,而是在特定维度或特定任务上的性能突破。对于我们普通用户而言,与其过分纠结于”谁是最强王者”,不如将目光投向如何利用这些日新月异的 AI 工具,提升自身的创造力和生产力。真正的壁垒并非模型本身,而是我们运用这些模型解决实际问题的能力。AI 的基础能力和核心方法论,远比追逐层出不穷的新工具和新技巧更为重要,因为前者能够帮助我们适应不断变化的技术浪潮,而后者则可能因技术的快速迭代而迅速过时。

掌握系统化思维,构建你的AI智能体

工具思维跨越到智能体思维,掌握系统化的方法论与AI智能体构建能力,构建可迁移的AI自动化技能,随时适应新需求!

7 阶实战体系,一步步带你从零基础到高阶自动化

◆ 立即节省2小时以上的重复劳动,效率提升10倍!

◆ 现在订阅,限时享受独家优惠,解锁你的AI竞争优势!



立即开启AI智能体进化之旅 →

Axton二维码

扫码关注获取更多资源

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部