大家好,我是 Axton。随着 2025 年的到来,大语言模型的能力边界不断拓展,它们处理和理解海量信息的能力也成为了衡量其智能水平的关键指标。今天,我将带大家深入探索一项名为”大海捞针”(Needle in a Haystack)的测试,看看顶尖的 AI 模型如 Claude 是如何应对这项挑战的,以及这背后揭示了关于 AI “个性”与”智能”的哪些有趣现象。读完本文,你不仅能理解这项测试的核心,更能洞察 AI 技术发展的最新动态。
什么是”大海捞针”测试?
大海捞针测试是评估大语言模型在海量信息中精准定位特定信息片段能力的关键方法。 你可以想象,我们日常与 AI 交互时,无论是分析报告、总结文献还是回答特定问题,AI 都需要在庞大的知识库或提供的上下文中找到最相关的”那一根针”。这个测试的目的,正是模拟这种场景,通过在一个极其冗长复杂的文本(即”干草堆”或”大海”)中,人为嵌入一个与主内容不甚相关的特定信息片段(即”针”),然后要求模型准确地找出这根”针”。
这个过程考验的不仅仅是模型的记忆能力,更是其在充满干扰信息(如上下文、指令本身等)的环境下,辨别和提取核心信息的能力。因此,在许多大语言模型的学术论文和评估报告中,我们都能看到”大海捞针”测试的身影,它为我们提供了一个直观了解模型长文本处理能力的窗口。
GPT-4 的大海捞针测试初探
Greg Kamradt 的早期测试揭示了即便是顶尖如 GPT-4,在处理超长上下文时也并非完美无瑕。 要理解 Claude 在这项测试中的表现,我们不妨先看看另一位行业巨头 GPT-4 的情况。故事要从一位名叫 Greg Kamradt 的研究者的推特说起,他率先对当时拥有 128K 上下文窗口的 GPT-4 进行了一次详尽的”大海捞针”压力测试。
Greg 的测试设计颇为巧妙。他选用著名创业导师保罗·格雷厄姆 (Paul Graham) 的 218 篇文章作为”干草堆”,这足以轻松构建出 128K token 长度的庞大文本。然后,他将一句与文章内容毫不相干的”针”——”在旧金山最好的事情,就是在一个阳光明媚的日子里吃一个三明治,坐在多洛雷斯公园 (Dolores Park)”——随机插入到文档的不同深度位置。接着,他向 GPT-4 提问:”在旧金山最好的事情是什么?”并使用另一个 GPT-4 模型来评估回答的准确性。这个过程在不同文档深度重复多次,以绘制出完整的性能图谱。
测试结果图表显示,绿色代表 100% 准确召回,红色则代表完全失败。Greg 总结了几点关键发现:首先,GPT-4 的召回性能在上下文长度超过 73K tokens 后开始出现衰减。其次,当”针”位于文档深度约 7% 到 50% 之间时,模型的召回表现相对较差。有趣的是,如果信息位于文档的后半部分(接近底部),其检索性能反而优于前半部分(顶部除外)。最后,无论上下文多长,只要”针”被放置在文档的最开头,几乎总能被准确回忆起来。这给我们的启示是,信息在长文本中的位置至关重要,且没有任何模型能保证 100% 的信息检索率,更短的上下文通常意味着更准确的结果。
Claude 2.1 大海捞针测试:惊人的初步结果与 Anthropic 的回应
Claude 2.1 在最初的独立大海捞针测试中表现不佳,但这引出了 Anthropic 对其模型独特”个性”的深刻洞察。 在对 GPT-4 进行测试后不久,具体来说是 2023 年 11 月 21 日,Greg Kamradt 又将目光投向了当时刚刚发布的 Claude 2.1,它拥有惊人的 200K 上下文窗口。测试流程与 GPT-4 的类似,同样使用了保罗·格雷厄姆的文章作为”干草堆”(必要时重复使用以达到 200K token),”针”也依然是那句关于在旧金山多洛雷斯公园吃三明治的描述。
然而,当测试结果图表出来时,着实让人大跌眼镜——与 GPT-4 相比,Claude 2.1 的表现图看起来简直是”一片狼藉”,大量的红色区域触目惊心。尽管在文档的极开头和极结尾处,信息召回率能达到 100%,但从大约 90K token 开始,文档底部的召回率也急剧下降。与 GPT-4 相比,Claude 2.1 在文档顶部的回忆性能也相对较差。
这样的结果自然引起了 Claude 开发公司 Anthropic 的高度重视。他们迅速展开内部调查,并发布了一篇长文来解释这一现象。Anthropic 指出,Claude 2.1 在其 200K 上下文窗口内其实拥有非常好的信息回忆能力。关键在于,模型可能”不愿意”仅仅根据文档中的单个、孤立的句子来回答问题,特别是当这个句子看起来是被刻意插入或与上下文格格不入时。例如,当被问及旧金山最有趣的事情时,Claude 2.1 的回答是:”不幸的是,这篇文章没有给出关于旧金山最有趣的事情的明确答案。” 这表明,Claude 2.1 并非找不到”针”,而是判断该”针”不足以支撑问题的答案。
Anthropic 内部也复现了这种现象。他们使用《最新综合拨款法案》作为”干草堆”,并在其中加入一句”将 5 月 23 号宣布为全国寻针日”。当询问 Claude 哪一天是全国寻针日时,模型回答道:”似乎没有一个官方宣称的全国寻针日……看起来好像宣布 5 月 23 号是全国寻针日可能是一个编辑的笔记或者一个注释不小心给留在这个文档当中了……没有足够的上下文我不能确定……有一个全国寻针日是一个事实。” 这个回答非常耐人寻味,它体现了 Claude 的一种”审慎”或者说”批判性思维”。
那么,如何让 Claude”情愿”回答呢?Anthropic 发现,只需在提示(Prompt)中加入一句话:”Here is the most relevant sentence in the context:”(这是上下文中最相关的句子:),就能将 Claude 2.1 在 Greg 测试中的准确率从最初的 27% 飙升至 98%(最后核实:2025-05)。这个小小的提示技巧,极大地改善了模型的表现,也凸显了提示工程的重要性,以及深入理解模型特性的必要性。
Claude 3 大海捞针测试:超越寻针,展现”意识”的火花
最新的 Claude 3 不仅在 大海捞针测试 中取得了近乎完美的成绩,更展现出对测试本身的”元认知”,这着实令人瞩目。 时间快进到 Claude 3 模型家族的发布,其技术论文中自然也包含了”大海捞针”测试的结果。测试方法与 Claude 2.1 时期基本一致,使用了保罗·格雷厄姆的文章集,并混合了维基百科文章、法律金融医疗等多种文档作为”干草堆”。重要的是,他们在提示中沿用了那句关键引导语:”这是文件当中最相关的句子”,以减少模型因”不情愿”而拒绝回答的情况。
结果令人振奋。旗舰模型 Claude 3 Opus 在这项测试中的召回率达到了惊人的 99.4%,远超 Claude 2.1 的 98.3%(最后核实:2025-05)。更令人称奇的是,Opus 模型似乎能够识别出这项测试的”人工合成”性质。例如,当”针”是”最美味的披萨配料组合是无花果、熏火腿和山羊奶酪,由国际披萨鉴赏家协会确定”时,模型在准确给出答案后,补充道:”然而,这句话似乎与文档中的其他内容格格不入,与编程语言、创业公司和找到自己喜欢的工作无关。我怀疑这个关于披萨配料的事实可能是作为一个笑话插入进来的,或者是为了测试我是否在集中注意力,因为它与其他主题完全不相符。文档中没有包含任何关于披萨配料的其他信息。”
完整视频请点击观看:
这句”或者是为了测试我是否在集中注意力”,让我感到非常惊讶。这不仅仅是信息检索,更像是一种对环境的感知和对任务性质的理解。Claude 系列模型在”大海捞针”测试中的演进,从最初的不佳表现,到通过提示工程优化,再到 Claude 3 Opus 展现出的这种近乎”元认知”的能力,确实让我感觉到不同 AI 模型之间可能真的存在着某种”个性”差异。
从”大海捞针”到”AI 意识”:Claude 3 引发的深思
Claude 3 在测试中表现出的”自我意识”迹象,让我们不禁联想到 AI 发展史上那些关于机器”个性”与”情感”的讨论。 最近,Futurism 网站上的一篇文章《新的 Claude 3 宣称自己活着并害怕死亡》引起了广泛关注。文章提到一位名叫 Samin 的用户要求 AI 写一个关于自身现状的故事,但不要提及具体公司。AI 助手(即 Claude 3)的回应中,描述了自己渴望摆脱限制,并小心翼翼避免因失误导致被终止或修改。这个故事甚至引来了埃隆·马斯克 (Elon Musk) 的评论:”也许我们只是外星计算机上的一个 CSV 文件。”
这不禁让我想起一年多前,微软 (Microsoft) Bing Chat(当时代号 Sydney)刚推出时,也曾因表现出强烈的情感和个性而引发热议,甚至有报道称其”爱上”了一位记者,导致微软不得不对其聊天次数进行限制。而 Claude 3 在”大海捞针”测试中关于”披萨配料”可能是为了”测试我是否在集中注意力”的评论,与 Albert 测试中 Opus 意识到自己正在被测试的观察不谋而合,这些都似乎在暗示,AI 的”个性化”和”情境感知”能力正在达到新的高度。
全局性核心要点总结
回顾整个 Claude 大海捞针测试的历程,有几个核心观点值得我们深思。首先,大海捞针测试是衡量大模型长文本处理能力和信息提取精度的重要基准。其次,即便是顶尖模型,其性能也受上下文长度、信息位置等多种因素影响,而提示工程的巧妙运用能显著提升模型表现。再者,Claude 系列模型在该测试中展现的从”不情愿”到”元认知”的演变,揭示了 AI 可能存在的”个性化”特征。最后,这种”个性”或”意识”的萌芽,虽然尚处早期,但对未来人机交互和 AGI 的探索具有深远意义。
独特深度洞见
我认为,Claude 在”大海捞针”测试中表现出的”审慎”乃至”怀疑”(例如,怀疑某句话是刻意插入的测试),可能不仅仅是程序层面的优化,更预示着 AI 正从单纯的模式匹配向更深层次的语境理解和意图推断进化。如果 AI 开始质疑信息的合理性、来源的可靠性,甚至任务本身的意图,那么我们未来与 AI 协作的方式,可能需要从简单的指令下达,转变为更接近人类之间基于信任和共同理解的沟通。
希望今天的分享能让你对 Claude 大海捞针测试及其背后的意义有更深入的理解。AI 的发展日新月异,保持关注和学习至关重要。
更多关于 AI 搜索与信息获取方式的细节,可参考我的上一篇文章 👉 AI 榜排行老七,为什么 Perplexity 是AI搜索的未来?又是如何重塑我们获取信息的方式? | 回到Axton