嘿,朋友们,我是 Axton!今天科技圈又迎来了一个激动人心的时刻——OpenAI 毫无征兆地发布了他们备受期待的 GPT-4 模型!原以为还要再等几天,没想到惊喜来得如此突然,这很 OpenAI。我已经迫不及待地在我的 ChatGPT Plus 账户中体验了一番,除了原有的 Default 和 Legacy (GPT-3.5) 模型外,GPT-4 的选项赫然在列。那么,这个新一代的语言模型究竟比它的前辈 GPT-3.5 强在哪里?它又会给我们的工作和生活带来哪些改变?别急,接下来我将带你快速了解 GPT-4 的核心亮点,并分享我的第一手实测对比,让你直观感受它的进化。
GPT-4 登场:不止于文本,开启多模态交互新纪元
OpenAI 将 GPT-4 定义为其当前最先进的系统,能够产生更安全、更有用的响应,其最显著的进化在于引入了图像识别能力。 这意味着我们与 AI 的交互不再仅仅局限于文字。在 OpenAI 的官方演示中,一个生动的例子展示了这项突破:当向 GPT-4 展示一张系着绳子的气球图片,并提问”如果绳子被割断会发生什么?”时,它能够准确回答”气球就会飞走”。这看似简单的问答背后,是模型对视觉信息的深刻理解和推理能力的体现。
除了这个气球的例子,另一个演示也让我印象深刻。图片上展示了鸡蛋、面粉和牛奶等食材,当提问”我们可以用这些原料做什么?”时,GPT-4 迅速给出了多种美食建议,如煎饼、法式吐司、焗蛋饼、奶油冻布丁等等。这种能力无疑为菜谱推荐、创意生成等领域打开了新的想象空间。GPT-4 不仅能”看懂”图片,还能对其进行分类和分析,这标志着 AI 向更全面的感知和认知迈出了重要一步。
能力全面升级:更强的理解力、创造力与推理力
GPT-4 并非简单的参数堆砌,而是在多个核心能力维度上实现了质的飞跃,尤其在处理复杂任务时,其优势更为凸显。 首先,GPT-4 能够处理的文本长度大幅增加,官方宣称可以处理超过 25,000 个单词的文本。他们用维基百科上的一个长篇条目作为示例,其文本量远超 GPT-3.5 的处理极限,这对于文档分析、长文写作等场景无疑是巨大的福音。
其次,GPT-4 在创造性和协作性方面也更胜一筹。它不仅能辅助完成创意写作任务,如创作歌曲、编写剧本,甚至还能学习用户的写作风格,成为你个性化的创作伙伴。更关键的是,GPT-4 的高级推理能力远超 ChatGPT (GPT-3.5)。OpenAI 提供了一个经典的日程安排案例:Mandy、Rohan 和 Sam 三人有各自不同的空闲时间段,需要 GPT 找出一个大家都能参加的 30 分钟会议时间。在这个例子中,ChatGPT (GPT-3.5) 虽然准确列出了三人的空闲时间,却给出了一个错误的会议时间建议(下午 4 点)。而 GPT-4 则能准确分析并给出正确的解决方案。这反映出 GPT-4 在理解复杂约束条件和进行逻辑推理方面的显著进步。
此外,GPT-4 在多项标准化测试中也取得了惊人的成绩。例如,在统一律师资格考试 (Uniform Bar Exam) 中,GPT-4 的成绩达到了前 10%,而 GPT-3.5 则是倒数 10%;在美国生物奥林匹克竞赛 (USABO) 中,GPT-4 更是取得了排名前 1% (原文为 99th percentile) 的优异成绩。这些数据有力地证明了 GPT-4 在专业知识掌握和问题解决能力上的巨大提升。
安全性与实用性的双重提升
在追求更强能力的同时,OpenAI 也强调了 GPT-4 在安全性和真实性方面的改进,这对于 AI 的可靠应用至关重要。 根据 OpenAI 的数据,与 GPT-3.5 相比,GPT-4 响应不被允许内容的可能性降低了 82%,而产生事实性响应的可能性则提高了 40%。这一点非常重要,因为之前的 ChatGPT 时常因”一本正经地胡说八道”而受到诟病。虽然 GPT-4 并非完美,但这一进步意味着它在提供信息时更加可靠。
目前,已经有不少知名产品和服务开始集成 GPT-4,例如语言学习应用多邻国 (Duolingo)、辅助视障人士的 Be My Eyes、在线教育平台可汗学院 (Khan Academy),甚至冰岛政府也利用 GPT-4 来保护和推广冰岛语。这些案例展示了 GPT-4 在不同领域的巨大应用潜力。
当然,OpenAI 也坦诚 GPT-4 依然存在局限性,例如可能存在的社会偏见、产生”幻觉”(即编造信息)以及容易受到对抗性提示的影响。并且,与之前的模型一样,GPT-4 的知识库截止到 2021 年 9 月,对于之后发生的事件它并不了解。因此,即便 GPT-4 更加强大,我们在使用时仍需保持批判性思维,尤其是在处理重要事务时。
深入技术细节:多模态、多语言与可控性
深入了解 GPT-4 的一些技术特性,能帮助我们更好地理解其工作方式和未来潜力。 GPT-4 是一个大型多模态模型,可以同时接受图像和文本作为输入,并输出文本。虽然图像输入功能目前仍处于研究预览阶段,并未对公众开放,但其潜力已显而易见。值得一提的是,GPT-4 在处理非英语语言方面的能力也得到了显著增强。在一项针对 26 种语言的测试中,GPT-4 在其中 24 种语言上的表现均优于 GPT-3.5 及其他大型语言模型。
一个对于开发者而言非常重要的改进是,GPT-4 对”系统消息 (system message)”的重视程度提高了。在使用 API 调用 GPT 模型时,通常会包含系统消息和用户消息 (user message)。系统消息用于设定 AI 的角色、风格或任务指令,而用户消息则是具体的提问。在 GPT-3.5 时代,OpenAI 曾表示模型对系统消息的关注度不高,导致有时设定的风格或指令会被忽略。而 GPT-4 则能更好地遵循系统消息中的指示,这为开发者提供了更强的 AI行为可控性。
在上下文长度方面,目前 ChatGPT Plus 用户可以体验到 GPT-4 的 8K tokens (约 8192 个标记) 上下文长度,这已经比 GPT-3.5 的 4K tokens 翻了一倍。OpenAI 还计划提供高达 32K tokens (约合 50 页文本) 的上下文版本,这将极大地提升其处理复杂长任务的能力。不过,目前在 ChatGPT Plus 中使用 GPT-4 是有频率限制的,大约是每 4 小时 100 条消息。
完整视频请点击观看:
我的实测:GPT-4 推理能力小考
理论再多,不如亲手一试。我决定复现 OpenAI 官方演示中那个经典的会议时间安排任务,看看 GPT-4 在中文和英文环境下的实际表现。
我首先尝试了中文版本。我将英文的题目翻译成中文,分别让 GPT-3.5 和 GPT-4 进行处理。GPT-3.5 模型居然还像模像样地画了个表格来整理三人的空闲时间,这一点值得表扬。但在结论上,它给出的第一个建议时间”中午 12 点”是正确的,但后续给出的其他时间则存在错误。轮到 GPT-4 出场,它的输出速度明显比 GPT-3.5 慢一些。然而,在中文任务下,GPT-4 的表现也并非完美,它同样给出了两个错误的结论,只有第一个”中午 12 点”是正确的。看来,在中文复杂逻辑推理上,提升空间依然存在。
随后,我切换回英文原题进行测试。GPT-3.5 快速给出了四个选项,遗憾的是,没有一个是对的。这与 OpenAI 官方演示中 ChatGPT (GPT-3.5) 的表现类似,虽然列出了信息,但最终推理出错。最后,我用英文题目测试 GPT-4。这一次,GPT-4 给出了一个非常准确的答案:”12:00 PM to 12:30 PM”,并且明确指出这是唯一可行的时间段。这个结果与官方演示一致,充分展现了其在英文语境下强大的逻辑推理能力。
全局性核心要点总结
通过对 GPT-4 的初步了解和测试,我认为有几个核心要点值得我们关注。首先,GPT-4 的多模态能力,特别是图像理解,是其区别于前代产品的革命性进步,为 AI 应用开辟了全新领域。其次,它在文本理解、内容生成、逻辑推理以及专业知识掌握方面的显著提升,使其能够胜任更复杂、更专业的任务。再者,尽管 GPT-4 在安全性和真实性上有所改进,但其固有的局限性依然存在,我们必须保持批判性思维,负责任地使用这项技术。此外,上下文长度的增加和对系统消息更好的支持,为开发者定制和控制 AI 行为提供了更大便利。最后,GPT-4 的出现,无疑将加速 AI 技术在各行各业的渗透与融合。
独特深度洞见
在我看来,GPT-4 的发布不仅仅是又一个更强大的 AI 模型的问世,它更深刻地揭示了未来人机协作的一种新范式。我们不再仅仅是将任务”丢”给 AI,而是需要更精细地设计提示 (prompt engineering),更巧妙地利用”系统消息”来引导和塑造 AI 的行为,使其成为一个能够理解复杂指令、适应特定风格、并与我们进行深度协作的”智能伙伴”。这意味着,未来掌握与高级 AI 高效沟通和协作的能力,将成为一项日益重要的技能。GPT-4 正推动我们从简单的”使用者”向”AI 协作者”和”AI 引导者”转变。