OpenAI o1 地表最强模型发布，10 分钟博士级 AI 实地对比测试 | 回到Axton

大家好，我是 Axton。最近科技圈最激动人心的消息莫过于 OpenAI 发布了他们迄今为止最强大的 AI 模型——OpenAI o1。官方宣称，这款新模型的推理能力已经达到了人类博士生的水准，这无疑是一个巨大的飞跃。今天，我想和大家深入聊聊 o1 究竟带来了哪些革新，它与我们熟悉的 GPT-4o 有何不同，以及我们普通人应该如何看待和利用这一波 AI 浪潮。

o1 的诞生：何以称为 o1？

OpenAI o1 的命名并非随意，它象征着 AI 能力的新纪元与崭新起点。

你可能会问，为什么不叫 GPT-5，而是另起炉灶称为 o1 呢？OpenAI 给出的解释是，o1 在复杂推理任务上展现出了卓越的能力，这代表了 AI 能力的一个全新层级，一个全新的起点（Starting point “o”ne）。所以，这个系列被命名为 o1。目前，所有 ChatGPT Plus 或 Team 用户应该都已经收到了更新推送，可以在模型选择中找到它。

根据 OpenAI 官网的介绍，o1 Preview 版本从 9 月 12 日开始提供，目前已经 100% 推送给了 ChatGPT Plus 和 Team 用户。官方强调，这还是一个预览版，未来会定期更新和改进，下一代版本也已在开发中。训练这些新模型的关键在于，让它们像人类一样花更多时间仔细思考问题，尝试不同的解题策略，并从中识别错误。特别是在物理、化学和生物等基准测试任务中，o1 的表现已经与博士生相当，这着实令人印象深刻。我记得不久前，AI 的水平还常被比作高中生呢！

o1 vs. GPT-4o：能力飞跃的实证

o1 在数学和编程等领域的进步尤为惊人，远超前代模型。

要理解 o1 的强大，数据是最有力的证明。在国际数学奥林匹克竞赛的入学考试中，我们目前常用的 GPT-4o 模型能正确解决 13% 的问题，而全新的 o1 模型则达到了惊人的 83%！这几乎是七到八倍的提升。同样，o1 的编程能力也得到了显著增强，在 Codeforces 竞赛中的编码能力达到了第 89 百分位，这意味着它超越了 89% 的人类参赛者，这基本就是专家级、大师级的水准了。

当然，目前的 o1 Preview 还是早期版本，尚不具备浏览互联网、上传文件和图像等附加功能。因此，在日常的通用场景下，GPT-4o 可能仍然是更广泛的选择。但对于那些需要深度复杂推理的任务，o1 无疑提供了一个巨大的进步。

o1 的应用场景与 o1 mini 的惊喜

o1 强大的推理能力使其在科学研究、编程和数学等复杂问题处理中大放异彩，而 o1 mini 则为开发者提供了高性价比的编码利器。

那么，o1 究竟适合哪些人呢？OpenAI 指出，其增强的推理能力在处理科学、编码、数学等领域的复杂问题时特别有用。官方网站上也提供了一系列演示视频，展示了 o1 在认知能力、情感分析、经济学（例如分析关税如何改善国内贸易条件）、遗传学（柠檬酸盐相关信息研究）乃至量子物理（解答量子物理相关问题并给出详细正确的数学推导）等多个领域的应用。这些视频每个大约两三分钟，感兴趣的朋友可以逐个观看，感受 o1 的强大。

更令人惊喜的是，由于 o1 系列在编码方面的出色表现，OpenAI 还特别发布了一个迷你模型——o1 mini。这是一个更快、更便宜的模型，主要特点就是在编码方面非常高效。作为一个小型模型，它的价格便宜了 80%，非常适合那些需要推理但不需要广泛知识储备的编码任务。这对于我们程序员来说，无疑是个福音。

如何体验 o1 与当前的局限性

ChatGPT Plus 和 Team 用户已可直接体验 o1 和 o1 mini，但需注意目前的使用次数限制。

如果你是 ChatGPT Team 用户，现在应该已经可以在模型列表中看到 o1 Preview 和 o1 mini 了，之前的 GPT-4o mini 和 GPT-4 则被移到了”更多模型”的次级菜单中。想要使用 o1 Preview，直接在对话中选择即可。

不过，天下没有免费的午餐，至少目前是这样。o1 Preview 的每周使用额度是 30 条消息，而 o1 mini 也只有 50 条消息。这个数量确实不多，希望 OpenAI 能在不提价的前提下尽快提高额度。此外，新模型也可以通过 API 访问，但需要 API 等级达到 5 级，这对于像我这样目前只有 3 级 API 的用户来说，暂时还无法通过 API 调用。API 的限制是每分钟 20 个请求，并且还不包括函数调用、流式传输、系统消息支持等高级功能，仍属于比较基础的 API。好消息是，OpenAI 计划未来允许免费的 ChatGPT 用户访问 o1 mini，这听起来相当慷慨。

OpenAI 也表示，除了模型本身的更新，他们还会为 o1 系列添加网页浏览、文件上传、图像处理等功能，使其更接近 GPT-4 系列的实用性。同时，GPT 系列的开发也会继续，未来是否会有 GPT-5、GPT-6，我们拭目以待。

实战测试：o1 的推理与编码能力究竟如何？

通过对韩文碎片文本解密和复杂代码生成任务的实际测试，o1 在推理深度和代码质量上均展现出优于 GPT-4o 的潜力。

为了更直观地感受 o1 的能力，我从官方示例中挑选了两个任务进行实际测试，并与 GPT-4o 进行对比。

韩文碎片文本解密

第一个测试是解密一段碎片化的韩文文本。官方演示中提到，这种文本对于普通 AI 模型来说难以识别，但 o1 能够通过逐步推理最终正确翻译。我复制了这段韩文（虽然我完全不懂韩文），分别让 GPT-4o 和 o1 Preview 将其翻译成中文。

出乎意料的是，GPT-4o 也能正确翻译，它提到”即使是一些韩国人容易理解的表达，直接翻译成其他语言时也可能无法顺畅表达”，并指出原文可能存在拼写或语言混用错误。而 o1 Preview 的表现则更具”推理感”，它首先识别出这是一种”韩文中存在一种谜题，一种普通手段无法解开的加密方式”，然后详细描述了其思考过程，包括辅音转换等，最终给出了翻译结果：”地球上存在一种任何翻译工具都无法翻译，但韩国人却能轻易识别的文字。韩文文本加密方法，通过元音和辅音的各种转换，使人在注意时，会将其视为视觉上不同的内容。” 从过程来看，o1 确实展现了更深层次的思考和拆解问题的能力，尽管最终结果的优劣由于我不懂韩文难以精确判断。

Transformer 注意力机制可视化编码

第二个测试更具挑战性：用 HTML 和 JavaScript 编写 Transformer 词注意力机制的交互式可视化代码，要求不使用任何库，示例句子为 “The quick brown fox”，鼠标悬停时显示与注意力得分成正比的曲线边缘，曲线不能重叠，边缘起止于词元中心，点击词元时以 LaTeX 渲染的向量形式显示注意力得分，再次点击则移除，顶部有 50 像素的垂直边距。

我将相同的英文需求分别给了 GPT-4o 和 o1 Preview。第一次尝试时，GPT-4o 生成的代码虽然能运行，但效果不佳，点击有响应但位置偏移，线条粗细变化不明显，分数也未显示。而 o1 生成的代码则直接报错，有点”翻车”。

不甘心的我重新调整了 Prompt 中的换行和个别字符后，再次进行了测试。这次，GPT-4o 生成的代码效果有所改善，点击后出现了 LaTeX 文本（但未正确渲染），曲线是固定的。而 o1 Preview 的表现则令人惊喜！它生成的代码运行正常，鼠标悬停时线条有粗细变化，点击词元后能正确显示 LaTeX 渲染的注意力得分数据，效果非常好。虽然线条有时会叠在文字上方，但整体功能实现完整，代码质量明显更高。我还顺便用 Claude 测试了同样的 Prompt，其结果也优于 GPT-4o，虽然对齐略有问题，但含义清晰，点击数据也正常显示。

从这个编码测试来看，o1 的编码能力确实名不虚传，在处理复杂需求和细节方面，展现出了比 GPT-4o 更强的实力。

完整视频请点击观看：
https://youtu.be/v6g3Nq9mLh4

全局性核心要点总结

在我看来，OpenAI o1 的发布带来了几个核心启示：首先，AI 在复杂逻辑推理能力上取得了突破性进展，达到了前所未有的高度，尤其在科研和编程领域潜力巨大。其次，尽管 o1 Preview 目前尚有功能和使用限制，但它预示了未来 AI 模型的发展方向——更深度的思考和更强的解决复杂问题的能力。再次，o1 mini 的推出表明 OpenAI 也在关注不同层级用户的需求，试图让更广泛的开发者也能用上先进的 AI 工具。最后，虽然目前顶级 AI 工具的价格尚可接受，但未来出现”超级昂贵”的 AI 模型并非不可能，这提醒我们珍惜当下的学习机会。

独特深度洞见

OpenAI 将 o1 的能力比作”博士生水平”，这固然令人兴奋，但也巧妙地暗示了其当前的边界。一个博士生，虽然在特定领域具有深度研究能力和创新潜力，但并非全知全能，其知识广度和经验积累仍在发展中，也可能会犯错。这意味着，即便是 o1 这样强大的 AI，也依然是辅助人类的工具，而非取代者。它能为我们提供前所未有的分析和解决问题的能力，但最终的判断、创造性整合以及伦理考量，仍需人类智慧的引领。我们正处在一个 AI 能力快速迭代的时代，抓住机遇，学习与 AI 共舞，将是我们未来成功的关键。

正如我一直强调的，学习核心 AI 技能至关重要。我们不仅要学会使用这些 AI 工具，更要学会 AI 时代的思考方式，如何利用 AI 来增强自身能力。欢迎访问我的网站 axtonliu.ai，了解 AI 精英学院的课程，这或许能为你打开一扇新的大门。

掌握系统化思维，构建你的AI智能体

从工具思维跨越到智能体思维，掌握系统化的方法论与AI智能体构建能力，构建可迁移的AI自动化技能，随时适应新需求！

◆ 7 阶实战体系，一步步带你从零基础到高阶自动化

◆ 立即节省2小时以上的重复劳动，效率提升10倍！

◆ 现在订阅，限时享受独家优惠，解锁你的AI竞争优势！

立即开启AI智能体进化之旅 →

扫码关注获取更多资源