昔日编程王者升级!Claude 3.7 Sonnet 实测对比 O3 Mini、DeepSeek R1、Grok 3 | 回到Axton

大家好,我是 Axton。最近 Anthropic 公司发布了他们备受瞩目的 Claude 3.7 Sonnet 模型,宣称其在推理能力上有了显著提升。这不禁让我好奇,这位曾经的编程王者,在新版本中究竟能展现出怎样的实力?为了深入探究,我决定用最近在社交媒体上非常火爆的”弹力球挑战”来检验它,毕竟连 Elon Musk 极力吹捧的 Grok 3 都在这个挑战中栽了跟头。本期,我将带大家一同深入了解 Claude 3.7 Sonnet 的最新特性,并与 O3 Mini、DeepSeek R1 和 Grok 3 等一众 AI 模型进行一场编程实战大比拼。

Claude 3.7 Sonnet 的三大核心升级

Claude 3.7 Sonnet 的发布,带来了思考模式切换、编程能力大幅强化以及更优的企业场景支持这三大核心升级,预示着 AI 交互与应用的新可能。

这次发布的 Sonnet 版本,相较于之前的 Claude 3.5,可谓是诚意满满。首先,它引入了”思考模式”切换功能,允许用户根据需求在常规的快速解答和深度的推理模式之间一键切换,甚至还能窥探 AI 的”内心独白”,了解其思考过程。其次,作为 Claude 系列的传统强项,编程能力在 3.7 版本中再次得到大幅强化,特别是新推出的 Claude Code,几乎可以被视为一位初级程序员。最后,新版本在企业应用场景方面也更为友好,价格保持不变,但 API 的思考 token 上限可灵活调整,最高可达 128K,为开发者提供了更大的操作空间。

深入剖析:快思与慢想的融合

Claude 3.7 Sonnet 的核心亮点之一在于其创新的”快思考+深思考”混合推理模式,它并非切换不同模型,而是允许单一模型根据任务复杂度调整思考深度与时间。

这种设计巧妙地兼顾了速度与深度。在 Claude 的界面上,我们可以看到标准的思考模式和付费版专属的扩展模式。这种混合推理模型意味着,我可以根据问题的难易程度,自主选择 AI 的思考方式。例如,对于简单的任务,我可以选择快速响应的标准模式;而面对复杂问题,则可以切换到扩展模式,给予 AI 更充足的时间进行深度思考。

这种灵活性也直接体现在了 API 的调用和成本控制上。API 的价格与之前的 Sonnet 3.5 保持一致,即每百万输入 token 收费 3 美元,输出 token 收费 15 美元。但关键在于,开发者现在可以在 API 调用中为不同难度的任务设定不同的思考 token 上限。简单的题目,或许用 8K token 就足够;而复杂的难题,则可以分配更高的 token 预算,比如 128K。这意味着,我们不必再为简单的推理任务支付不必要的算力和时间成本,每一分钱都能花在刀刃上。

AI 的”内心独白”:透明思考的利与弊

Claude 3.7 Sonnet 允许我们观察其推理过程,这种”透明思考”机制在增强信任感的同时,也带来了一些值得探讨的优劣势。

能够看到模型的思考步骤,无疑是一项令人兴奋的特性。其优势显而易见:首先,通过观察 Claude 的思考路径,我们可以对其输出结果建立更强的信任感,确认它是在正确的轨道上解决问题。其次,这也有助于我们识别潜在的错误或有问题的行为模式。当然,从个人角度而言,观察一个 AI 的”内心独白”,探索它的思考过程,本身就是一件极具趣味性的事情,仿佛在挖掘一个未知智能的内心世界。

然而,Anthropic 官方也坦诚地指出了这种机制的几点劣势。其一,他们提到目前的思考过程展示相对客观,缺乏”角色扮演”的润色,因为他们并未对模型的思维过程进行标准的角色训练。不过,我个人认为这未必是劣势,未经雕琢的”AI 味”反而更能展现其原始思考状态。其二,是关于”忠实度”的问题。我们无法百分之百确定所展示的思维过程是否完全代表了模型真实的内部状态,AI 内心真正的”小九九”或许依然深藏不露。最后,可见的思维过程也可能被恶意行为者利用,他们或许能借此更好地分析并找到破解 Claude 的方法。针对这些潜在风险,Anthropic 提出的解决方案之一便是未来可能会对思考过程进行加密。

基准测试:编程能力一骑绝尘,数学表现另有侧重

在基准测试中,Claude 3.7 Sonnet 的编程能力再次惊艳全场,指令遵循能力也显著提升,但在数学方面,其表现似乎反映了 Anthropic 对企业实际应用场景的侧重。

从官方公布的基准测试数据来看,Claude 3.7 Sonnet 在编程测试中的得分确实是”一骑绝尘”,大幅领先于其他模型。另一项突出的表现是其指令遵循能力,相较于 3.5 版本提高了三个百分点。对于语言模型而言,尤其是在需要将其应用于生产环境,例如构建 AI 自动化工作流时,精准的指令遵循能力至关重要。

在推理能力方面,开启扩展模式后,其表现相较于标准模式有显著提升,基本与 O3 Mini、Grok 等主流模型处于同一水平线。然而,在数学能力测试中,标准模式与扩展模式的得分却呈现出天壤之别。对于标准模式数学得分远低于其他几个模型的情况,Anthropic 一方面解释说可能是评分标准不同,另一方面也特别提到,他们在开发模型时,有意减少了在数学和计算机科学竞赛问题上的优化,转而将重点放在了更能反映企业实际使用语言模型的现实任务上。这不禁让人思考,所谓的”现实任务”究竟指向何方?答案似乎直指其第三大亮点——大幅增强的编程能力,以及那个令人期待的 Claude Code 早期预览版,一个旨在完成程序员工作的命令行工具。

实战演练场:三大挑战见真章

为了更直观地感受 Claude 3.7 Sonnet 与其他模型的差异,我准备了三个不同维度的测试场景,分别是经典的 Monty Hall 推理题、考验物理模拟与编程的六边形弹力球,以及检验前端动画与页面构建能力的天气卡片。

在开始这场主观评测之前,我需要强调一点:以下所有比拼结果均基于我的个人观察和单次测试。如果您追求绝对客观的评价,那么前面我们讨论过的基准测试分数无疑是更可靠的参考。作为个人博主,我无法进行超越这些标准化测试的客观评测。

参与本次比拼的选手包括:Claude 3.7 Sonnet (使用其 Extended 扩展思维模式)、ChatGPT (我们选用 O3 Mini High 模型进行对比)、DeepSeek R1 以及 Grok 3。考虑到这些推理模型在思考过程中普遍耗时较长,我将跳过中间的等待时间,直接向大家展示题目和最终结果。

Test 1: Monty Hall 概率谜题

第一个挑战是著名的 Monty Hall 问题,它不仅考验 AI 的逻辑推理,更检验其能否将抽象概念转化为可交互的模拟器。

这个问题的场景大家可能在电视节目中见过:你参加一个游戏,面前有三扇门,一扇门后是汽车,另两扇门后是红色的螃蟹。假设你选择了门一。主持人(他知道每扇门后是什么)打开了门三,露出了一只名叫 Claude 的红色螃蟹。然后他问你:”你要换到门二吗?”你应该换吗?我要求 AI 不仅给出”换”或”不换”的答案,还要从不同思维框架进行全面分析,并创建一个交互式模拟器,让我们能亲身体验这个游戏。

Claude 3.7 Sonnet 思考了 49 秒,给出了详尽的分析。它从基础概率分析入手,指出关键在于主持人的行为并非随机,他知道门后有什么,绝不会打开有汽车的门,这导致了概率的重新分配。坚持原选择,胜率 1/3;换门,胜率则提升至 2/3。因此,结论是应该换门。它还运用了贝叶斯推理、决策理论、场景模拟、集合论、信息论和实验验证等多种框架进行阐释,并最终创建了一个简单的网页模拟器。在这个模拟器上,我可以选择门,主持人会打开另一扇有螃蟹的门,然后我选择是否换门,并看到结果。它甚至还提供了多次自动模拟的功能,帮助理解概率分布。

接下来看看其他模型的表现。O3 Mini High 模型思考了 11 秒,同样得出换门能将胜率从 1/3 提升到 2/3 的结论。它也提供了一个基于 HTML 和 JavaScript 的模拟器代码,我将其拷贝出来运行,界面比 Claude 的要简洁许多,可以说是”阳春白雪”级别,但功能是完善的。DeepSeek R1 也正确解答了问题,最初提供了一个 Python 文本模拟器,在我要求后,也给出了 HTML 版本。Grok 3 的回答同样正确,它还从一个有趣的角度思考:”主持人是你的对手吗?假设主持人想让你输。”但当被要求创建模拟器时,Grok 3 最初表示只能提供文本回复,在我进一步提示后,才给出了 HTML 代码。

所有模型都正确解答了 Monty Hall 问题本身,这并不意外。在模拟器创建方面,DeepSeek R1 的 HTML 版本需要稍作修改才能完美运行(后来它自行修正了)。从界面美观度来看,Claude 3.7 Sonnet 无疑是最出色的,O3 Mini 最为朴素,而 DeepSeek R1 和 Grok 3 的界面则中规中矩。

Test 2: 六边形弹力球的物理与代码挑战

第二个挑战是最近在推特上非常火爆的”六边形弹力球”编程任务,它要求 AI 编写一个 Python 程序,模拟一个球在旋转的六边形内受重力和摩擦力影响并逼真反弹的场景。

这个挑战看似简单可爱,实则难度不小。它不仅测试编程能力,更考验模型对真实物理世界(如重力、摩擦力、碰撞反弹)的理解和模拟能力。任何一方面存在短板,都可能导致程序出错或效果失真。现在,我将四个模型编写的程序同时运行起来,大家可以先猜猜哪个程序对应哪个模型。

揭晓答案的时刻到了(请注意,这仅为单次测试结果,模型的表现可能因多次尝试而异):左上角那个球很快就飞出边界的,出乎意料地是 Claude 3.7 Sonnet (Extend 模式) 的作品。右上角稳定运行的是 DeepSeek R1。左下角,球最终也跑偏了,这是 Grok 3 的结果,可以说它再次”翻车”。右下角是 O3 Mini High,它初期表现不错,但最终球也没能留在六边形内。

所以,在这次测试中,真正能让小球长时间稳定运行的,主要是 DeepSeek R1,O3 Mini 也展现了一定的潜力。Claude 3.7 Sonnet (Extend 模式) 的表现确实不尽如人意。有趣的是,我后来尝试用它的标准思考模式运行同样的任务,效果反而比扩展模式要好一些,尽管其对重力和弹跳的模拟依然不及 DeepSeek R1 和 O3 Mini 的初期表现。可以说,在这一轮高难度物理模拟编程挑战中,DeepSeek R1 胜出。

Test 3: 动画天气卡片的美学较量

最后一个比拼项目是创建一个包含 CSS 和 JavaScript 的单个 HTML 文件,用于生成动画天气卡片,以此检验模型在前端界面设计和动画实现方面的能力。

具体要求是:卡片需通过不同动画视觉效果代表风、雨、太阳、雪等天气条件,例如移动的云、摇摆的树、下雨滴、闪耀的光线、飘落的雪花等。所有天气卡片并排显示,背景为黑色,并提供切换不同天气条件的 JavaScript 功能。

Claude 3.7 Sonnet 在这个项目上的表现堪称惊艳。它制作的天气卡片不仅动画效果流畅自然(风、雨、阳光、雪都有独特的动态表现),卡片本身还有浮动效果,下方的按钮可以方便地切换不同天气场景。不得不说,Claude 在前端界面和视觉效果的构建上确实功力深厚。

相比之下,ChatGPT (O3 Mini) 的作品就显得非常简陋了,四个天气效果几乎完全一样,与 Claude 的作品完全不在一个量级。DeepSeek R1 的表现则要优于 O3 Mini,风、雨、晴天、雪的效果都实现了,按钮可以控制动画的播放与停止,整体还算不错。Grok 3 也完成了大部分要求,但似乎少了一个”雨天”的独立展示,其按钮功能也实现了天气切换。

综合来看,在动态天气卡片这个测试中,Claude 3.7 Sonnet 凭借其出色的界面美观性和动画效果遥遥领先。DeepSeek R1 的表现也值得肯定,而 Grok 3 和 O3 Mini 则相对逊色一些。

完整视频请点击观看:
https://youtu.be/uVivWJRj7Iw

全局性核心要点总结

通过这一系列的实战测试,我们可以清晰地看到,Claude 3.7 Sonnet 在特定领域,尤其是前端编程和用户界面美学方面,展现出了卓越的实力。同时,其创新的可切换思考模式为用户在效率和深度之间提供了灵活的选择,这是一个非常实用的进步。然而,没有任何一个 AI 模型是全能冠军,在复杂的物理模拟编程任务中,DeepSeek R1 凭借其对物理规律的更佳理解和代码实现拔得头筹,而即便是备受瞩目的 Grok 3 也在特定挑战中显露短板。这再次印证了在评估 AI 能力时,多维度、多场景的实测远比单一的基准分数更具参考价值。

独特深度洞见

尽管 Claude 3.7 Sonnet 提供了”可见的思考过程”,这在一定程度上增强了透明度和用户的信任感,但我们仍需清醒地认识到,这种”内心独白”更像是一种经过 AI”组织和表达”的解释性输出,而非其原始、底层的”思维电流”。这意味着,我们看到的可能并非 AI 思考的全貌,其内部真正的运算和决策机制或许依然复杂且难以完全洞察。因此,在依赖 AI 进行关键决策时,保持审慎的批判性思维,结合多方验证,依然是不可或缺的。AI 的”透明化”是一个持续演进的过程,真正的理解与信任,还需要技术与伦理的共同进步。

掌握系统化思维,构建你的AI智能体

工具思维跨越到智能体思维,掌握系统化的方法论与AI智能体构建能力,构建可迁移的AI自动化技能,随时适应新需求!

7 阶实战体系,一步步带你从零基础到高阶自动化

◆ 立即节省2小时以上的重复劳动,效率提升10倍!

◆ 现在订阅,限时享受独家优惠,解锁你的AI竞争优势!



立即开启AI智能体进化之旅 →

Axton二维码

扫码关注获取更多资源

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部