OpenAI o1 地表最强模型发布,10 分钟博士级 AI 实地对比测试 | 回到Axton

大家好,我是 Axton。最近科技圈最激动人心的消息莫过于 OpenAI 发布了他们迄今为止最强大的 AI 模型——OpenAI o1。官方宣称,这款新模型的推理能力已经达到了人类博士生的水准,这无疑是一个巨大的飞跃。今天,我想和大家深入聊聊 o1 究竟带来了哪些革新,它与我们熟悉的 GPT-4o 有何不同,以及我们普通人应该如何看待和利用这一波 AI 浪潮。

o1 的诞生:何以称为 o1?

OpenAI o1 的命名并非随意,它象征着 AI 能力的新纪元与崭新起点。

你可能会问,为什么不叫 GPT-5,而是另起炉灶称为 o1 呢?OpenAI 给出的解释是,o1 在复杂推理任务上展现出了卓越的能力,这代表了 AI 能力的一个全新层级,一个全新的起点(Starting point “o”ne)。所以,这个系列被命名为 o1。目前,所有 ChatGPT Plus 或 Team 用户应该都已经收到了更新推送,可以在模型选择中找到它。

根据 OpenAI 官网的介绍,o1 Preview 版本从 9 月 12 日开始提供,目前已经 100% 推送给了 ChatGPT Plus 和 Team 用户。官方强调,这还是一个预览版,未来会定期更新和改进,下一代版本也已在开发中。训练这些新模型的关键在于,让它们像人类一样花更多时间仔细思考问题,尝试不同的解题策略,并从中识别错误。特别是在物理、化学和生物等基准测试任务中,o1 的表现已经与博士生相当,这着实令人印象深刻。我记得不久前,AI 的水平还常被比作高中生呢!

o1 vs. GPT-4o:能力飞跃的实证

o1 在数学和编程等领域的进步尤为惊人,远超前代模型。

要理解 o1 的强大,数据是最有力的证明。在国际数学奥林匹克竞赛的入学考试中,我们目前常用的 GPT-4o 模型能正确解决 13% 的问题,而全新的 o1 模型则达到了惊人的 83%!这几乎是七到八倍的提升。同样,o1 的编程能力也得到了显著增强,在 Codeforces 竞赛中的编码能力达到了第 89 百分位,这意味着它超越了 89% 的人类参赛者,这基本就是专家级、大师级的水准了。

当然,目前的 o1 Preview 还是早期版本,尚不具备浏览互联网、上传文件和图像等附加功能。因此,在日常的通用场景下,GPT-4o 可能仍然是更广泛的选择。但对于那些需要深度复杂推理的任务,o1 无疑提供了一个巨大的进步。

o1 的应用场景与 o1 mini 的惊喜

o1 强大的推理能力使其在科学研究、编程和数学等复杂问题处理中大放异彩,而 o1 mini 则为开发者提供了高性价比的编码利器。

那么,o1 究竟适合哪些人呢?OpenAI 指出,其增强的推理能力在处理科学、编码、数学等领域的复杂问题时特别有用。官方网站上也提供了一系列演示视频,展示了 o1 在认知能力、情感分析、经济学(例如分析关税如何改善国内贸易条件)、遗传学(柠檬酸盐相关信息研究)乃至量子物理(解答量子物理相关问题并给出详细正确的数学推导)等多个领域的应用。这些视频每个大约两三分钟,感兴趣的朋友可以逐个观看,感受 o1 的强大。

更令人惊喜的是,由于 o1 系列在编码方面的出色表现,OpenAI 还特别发布了一个迷你模型——o1 mini。这是一个更快、更便宜的模型,主要特点就是在编码方面非常高效。作为一个小型模型,它的价格便宜了 80%,非常适合那些需要推理但不需要广泛知识储备的编码任务。这对于我们程序员来说,无疑是个福音。

如何体验 o1 与当前的局限性

ChatGPT Plus 和 Team 用户已可直接体验 o1 和 o1 mini,但需注意目前的使用次数限制。

如果你是 ChatGPT Team 用户,现在应该已经可以在模型列表中看到 o1 Preview 和 o1 mini 了,之前的 GPT-4o mini 和 GPT-4 则被移到了”更多模型”的次级菜单中。想要使用 o1 Preview,直接在对话中选择即可。

不过,天下没有免费的午餐,至少目前是这样。o1 Preview 的每周使用额度是 30 条消息,而 o1 mini 也只有 50 条消息。这个数量确实不多,希望 OpenAI 能在不提价的前提下尽快提高额度。此外,新模型也可以通过 API 访问,但需要 API 等级达到 5 级,这对于像我这样目前只有 3 级 API 的用户来说,暂时还无法通过 API 调用。API 的限制是每分钟 20 个请求,并且还不包括函数调用、流式传输、系统消息支持等高级功能,仍属于比较基础的 API。好消息是,OpenAI 计划未来允许免费的 ChatGPT 用户访问 o1 mini,这听起来相当慷慨。

OpenAI 也表示,除了模型本身的更新,他们还会为 o1 系列添加网页浏览、文件上传、图像处理等功能,使其更接近 GPT-4 系列的实用性。同时,GPT 系列的开发也会继续,未来是否会有 GPT-5、GPT-6,我们拭目以待。

实战测试:o1 的推理与编码能力究竟如何?

通过对韩文碎片文本解密和复杂代码生成任务的实际测试,o1 在推理深度和代码质量上均展现出优于 GPT-4o 的潜力。

为了更直观地感受 o1 的能力,我从官方示例中挑选了两个任务进行实际测试,并与 GPT-4o 进行对比。

韩文碎片文本解密

第一个测试是解密一段碎片化的韩文文本。官方演示中提到,这种文本对于普通 AI 模型来说难以识别,但 o1 能够通过逐步推理最终正确翻译。我复制了这段韩文(虽然我完全不懂韩文),分别让 GPT-4o 和 o1 Preview 将其翻译成中文。

出乎意料的是,GPT-4o 也能正确翻译,它提到”即使是一些韩国人容易理解的表达,直接翻译成其他语言时也可能无法顺畅表达”,并指出原文可能存在拼写或语言混用错误。而 o1 Preview 的表现则更具”推理感”,它首先识别出这是一种”韩文中存在一种谜题,一种普通手段无法解开的加密方式”,然后详细描述了其思考过程,包括辅音转换等,最终给出了翻译结果:”地球上存在一种任何翻译工具都无法翻译,但韩国人却能轻易识别的文字。韩文文本加密方法,通过元音和辅音的各种转换,使人在注意时,会将其视为视觉上不同的内容。” 从过程来看,o1 确实展现了更深层次的思考和拆解问题的能力,尽管最终结果的优劣由于我不懂韩文难以精确判断。

Transformer 注意力机制可视化编码

第二个测试更具挑战性:用 HTML 和 JavaScript 编写 Transformer 词注意力机制的交互式可视化代码,要求不使用任何库,示例句子为 “The quick brown fox”,鼠标悬停时显示与注意力得分成正比的曲线边缘,曲线不能重叠,边缘起止于词元中心,点击词元时以 LaTeX 渲染的向量形式显示注意力得分,再次点击则移除,顶部有 50 像素的垂直边距。

我将相同的英文需求分别给了 GPT-4o 和 o1 Preview。第一次尝试时,GPT-4o 生成的代码虽然能运行,但效果不佳,点击有响应但位置偏移,线条粗细变化不明显,分数也未显示。而 o1 生成的代码则直接报错,有点”翻车”。

不甘心的我重新调整了 Prompt 中的换行和个别字符后,再次进行了测试。这次,GPT-4o 生成的代码效果有所改善,点击后出现了 LaTeX 文本(但未正确渲染),曲线是固定的。而 o1 Preview 的表现则令人惊喜!它生成的代码运行正常,鼠标悬停时线条有粗细变化,点击词元后能正确显示 LaTeX 渲染的注意力得分数据,效果非常好。虽然线条有时会叠在文字上方,但整体功能实现完整,代码质量明显更高。我还顺便用 Claude 测试了同样的 Prompt,其结果也优于 GPT-4o,虽然对齐略有问题,但含义清晰,点击数据也正常显示。

从这个编码测试来看,o1 的编码能力确实名不虚传,在处理复杂需求和细节方面,展现出了比 GPT-4o 更强的实力。

完整视频请点击观看:
https://youtu.be/v6g3Nq9mLh4

全局性核心要点总结

在我看来,OpenAI o1 的发布带来了几个核心启示:首先,AI 在复杂逻辑推理能力上取得了突破性进展,达到了前所未有的高度,尤其在科研和编程领域潜力巨大。其次,尽管 o1 Preview 目前尚有功能和使用限制,但它预示了未来 AI 模型的发展方向——更深度的思考和更强的解决复杂问题的能力。再次,o1 mini 的推出表明 OpenAI 也在关注不同层级用户的需求,试图让更广泛的开发者也能用上先进的 AI 工具。最后,虽然目前顶级 AI 工具的价格尚可接受,但未来出现”超级昂贵”的 AI 模型并非不可能,这提醒我们珍惜当下的学习机会。

独特深度洞见

OpenAI 将 o1 的能力比作”博士生水平”,这固然令人兴奋,但也巧妙地暗示了其当前的边界。一个博士生,虽然在特定领域具有深度研究能力和创新潜力,但并非全知全能,其知识广度和经验积累仍在发展中,也可能会犯错。这意味着,即便是 o1 这样强大的 AI,也依然是辅助人类的工具,而非取代者。它能为我们提供前所未有的分析和解决问题的能力,但最终的判断、创造性整合以及伦理考量,仍需人类智慧的引领。我们正处在一个 AI 能力快速迭代的时代,抓住机遇,学习与 AI 共舞,将是我们未来成功的关键。

正如我一直强调的,学习核心 AI 技能至关重要。我们不仅要学会使用这些 AI 工具,更要学会 AI 时代的思考方式,如何利用 AI 来增强自身能力。欢迎访问我的网站 axtonliu.ai,了解 AI 精英学院的课程,这或许能为你打开一扇新的大门。

掌握系统化思维,构建你的AI智能体

工具思维跨越到智能体思维,掌握系统化的方法论与AI智能体构建能力,构建可迁移的AI自动化技能,随时适应新需求!

7 阶实战体系,一步步带你从零基础到高阶自动化

◆ 立即节省2小时以上的重复劳动,效率提升10倍!

◆ 现在订阅,限时享受独家优惠,解锁你的AI竞争优势!



立即开启AI智能体进化之旅 →

Axton二维码

扫码关注获取更多资源

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部