神级 Prompt 测试与分析
Thinking Claude 是一个由高中生 Richard 开发的神级 Prompt,据称可提升 Claude 3.5 Sonnet 的表现,但我通过实测发现它无法让 Claude 达到 GPT-o1 的水平。
我在 GitHub 上找到了这个名为”Thinking Claude”的项目,目前已获得 5500+ 星标。作者 Richard 特别说明这个 Prompt 并非为了在基准测试或数学等方面取得突破,而是探索如何通过深度思维提升 Claude 的表现。使用方法很简单:可以直接复制 Prompt 到 Claude 的项目中,或使用作者开发的浏览器插件。我选择了直接复制最新版本的提示词到 Claude 的 custom instructions 中进行测试。
实测对比结果
我通过同一任务测试了三个版本:普通 Claude、神级 Prompt 加持的 Claude 和 GPT-o1,结果表明神级 Prompt 确实提升了 Claude 的表现,但与 GPT-o1 仍有差距。
测试任务是将 MKBHD 关于如何做好 YouTube 视频的 54 分钟脚本整理成脑图。我使用相同的提示词:”请根据以下文本内容创建一个清晰逻辑关系准确且易于理解的 Markdown 格式的脑图”,然后将生成结果导入脑图软件比较。在使用神级 Prompt 时,Claude 第一次并未严格遵循 Thinking Claude 的要求输出思考过程,但在我要求”请遵循 Anthropic Thinking Protocol”后,它在代码块中展示了详细思考过程。有趣的是,无论是否显示思考过程,最终输出的脑图内容基本一致。
神级 Prompt 的价值与学习
虽然神级 Prompt 不能让模型超越自身极限,但它确实值得学习,因为它提供了全面的思维框架、强调自然思考过程、注重验证和质量控制。
我让 Claude 和 GPT-o1 分析了这个 Prompt 的优点。GPT-o1 指出它的核心优势包括:提供全面思维框架、强调自然真实的思考过程、鼓励适应性思维、注重验证和质量控制、强调高级思维技巧以及保持真实性和专注。对 AI 爱好者而言,值得学习的是如何构建详细 Prompt、强调思维过程的重要性、适应性和灵活性、自然语言和真实性以及验证和质量控制技巧。要提高 Prompt 编写能力,可以深入研究其结构、实践编写类似 Prompt、强调思维过程引导、注重自然表达、加强验证和质量控制,以及反复练习改进。
核心观点
- 好的提示词确实能提升模型表现,但不存在能让模型超越其固有能力上限的”银弹”
- 高质量 Prompt 的核心在于引导模型展示思考过程、强调验证和质量控制
- 同一模型在有无神级 Prompt 加持下的输出结果可能内容相似,但思考过程的展示使结果更可靠
- 模型的基础能力决定了其上限,Claude 3.5 Sonnet 即使有最佳提示词也难以达到 GPT-o1 水平
- 学习优秀 Prompt 的结构和思路比盲目复制更有价值,应注重理解其设计原理
关键洞见
神级 Prompt 之所以有效,不是因为它能神奇地提升模型的基础能力,而是因为它巧妙地引导模型充分发挥已有能力的上限。这揭示了一个深刻道理:提示工程的本质不是”解锁”模型的隐藏能力,而是创造一个结构化的思考环境,让模型能够更系统、更透明地展示其思考过程,从而减少错误并提高输出质量。这就像一个优秀的教练不能让普通运动员超越生理极限,但能帮助他们发挥出最佳状态。
请点击观看原始视频:
关于 Claude 3.5 Sonnet 神级 Prompt 的实测与分析
你好,欢迎回到 Axton。
这两天突然爆火了一个神级 Prompt,据说用了这个提示词之后,就能让 Claude 3.5 Sonnet 达到 GPT-o1 的水准。这事不但在推特上成了热门话题,也有观众朋友私信问我,神级 Prompt 真的有这么神吗?
好,口说无凭,今天咱们就来进行一次实测对比,用同一个任务做三次,分别是直接丢给 Claude 回答,让神级 Prompt 加持的 Claude 回答,让 GPT-o1 来回答。
那测试之前呢,我先叠个甲。首先我用于测试的例子呢,只是我日常工作范围内的少数案例,测试结果仅供抛砖引玉。如果您有不同的结果呢,欢迎留言分享您的测试案例,大家来共同学习。其次我测试的时间是 11 月 16 日,目前这个提示词在不断的更新当中,因此啊,你的结果很可能跟视频当中的不一样。
神级 Prompt 简介与安装指南
好,首先呢,如何安装和使用这个神级提示词。我们来到作者的 GitHub 的主页,这个项目的名称呢,叫做 Thinking Claude。本期视频用到的链接,以及测试的结果的高清大图呢,我都会放到我的博客文章里面,链接就在描述栏当中。
作者叫做 Richard,据说是一位高中生,确实很厉害,很佩服。这个项目现在已经 5500 多颗星了。
首先这是作者添加的一个快速提醒,我猜这是这个 Prompt 在网上大热之后,Richard 特地添加了说明。提醒中说到,Thinking Claude 它并不是为了基准测试,或者在数学等方面取得巨大飞跃,因为这些都是由基础模型预先确定的。我只想探索我们可以通过 Claude 的深度思维达到多远。从这里我们就能看出来,Richard 是一个很谦逊的人,这个非常好。
那使用 Thinking Claude 呢,安装使用它有两种方式。一个就是我们可以直接拷贝它的提示词,到 Claude 的 Project 项目里面去,这边就是使用说明。那另外一个呢,就是可以使用 Rechard 开发的浏览器插件。今天呢我们就先从简单的直接拷贝提示词来进行测试使用。
那按照它的说明呢,通过以下这几个步骤就可以使用了。首先我们要复制这个 model instructions 这个文件夹里面的最新版本的提示词。好,这应该是最新版本。如果要复制呢点击打开,然后点击右上角的复制按钮就可以把它复制到剪贴板里面了。
之后呢我们就可以来到 Claude,在右上角点击创建一个项目,然后名字可以随便起,点击创建项目。好,创建完之后呢我们就可以把我们刚才拷贝来的 Prompt,添加到 custom instructions 里面,粘贴到这里就可以了。点击保存 instructions。OK,那这个就完成了。以后你在这边提示的问题呢,Claude 回答的时候都会遵守这个 Prompt。
实测对比:神级 Prompt 的效果
好,接下来我们开始对比测试。对比测试的问题呢,是把 MKBHD 的一个关于如何做好 YouTube 视频的 54 分钟的视频的脚本呢,整理成一个脑图。我们把字幕下载回来,然后转换成文本文件。至于如何简单的把 SRT 字幕转换成文本文件呢,可以看我的这期视频。
我们就使用一个简单的提示词:请根据以下文本内容,创建一个清晰逻辑关系准确,且易于理解的 Markdown 格式的脑图。然后我们把生成的结果呢,导入到脑图软件当中去显示,来看看效果。
原生 Claude 测试
首先我们测试的是 Claude,没有任何技能加持的 Claude。我们把 MKBHD 的脚本内容呢,给它拷贝粘贴到 Claude 里面来,然后发送。
OK,Claude 输出了英文,我们让它改成中文。然后我们点击下载按钮,把这个文件下载回来,下载成 Markdown 格式的文件,把它导入到脑图软件当中去。我们给它起个名字,叫 Regular Claude。
好,这就是导入到脑图软件当中的效果。
神级 Prompt 加持的 Claude 测试
那接下来我们使用同样的提示词,在具有神级 prompt 加持的 Claude 下面进行测试。
好,拷贝提示词,粘贴到我们的项目文件的 custom instruction 里面,保存。然后输入我们的问题:根据以下文本内容,创建一个清晰逻辑关系准确,且易于理解的 Markdown 格式的脑图。再把字幕文本给它。
Claude 在第一次输出的时候,它并没有严格地遵循 Thinking Claude 的要求,输出一个考虑的思考的过程,所以我们就再多要求它一句:请遵循 Anthropic Thinking Protocol。
好,这次我们就可以看到,它在一个代码块里面,输出了它的思考的过程,也就是这个 prompt 所要求它做的事情。OK,重新输出完成。那实际上我们对比一下,它这两次的输出的脑图啊,内容其实是一样的。也就是说虽然第一次,它没有输出思考过程,并不影响它最终的输出结果。这边就是它详细的思考过程。
同样点击下载,把它下载回来。然后我们再改名成 Claude nb prompt。接着我们再把它导入到脑图软件。
好,这个就是神级 Prompt 加持之后,Claude 生成的脑图结果。这个就是原汁原味的 Claude 的输出结果。
GPT-o1 测试
那接下来同样的提示词,我们拿去让 ChatGPT-o1 进行测试。
GPT-o1 进行了很长时间的思考,最终输出了结果。思考了 33 秒钟。同样我们把 GPT-o1 的输出的内容呢,给它拷贝粘贴到一个 markdown 文件里面。然后我们把它导入到脑图软件,GPT-o1。
好,这就是 GPT-o1 输出的结果。
脑图结果对比
那么这三个结果的对比效果如何呢?好,我们再大概看一下这三个输出的结果。这是 GPT-o1 输出的脑图。这是神级 Prompt 加持之后输出的脑图。这是没有神级加持的 Claude 直接输出的脑图的结果。
那么三个结果的对比效果到底如何呢?在我的 Newsletter 文章当中呢,给出了高清图,大家感兴趣可以自己详细地对比一下,得出你自己的结论。
我的测试结论与思考
那么我的结论是什么呢?三个结论。
首先,用了神级提示词,Claude 是否能达到了 GPT-o1 的水准呢?这个问题其实很好回答。首先呢,Claude 3.5 Sonnet,它是 Claude 的终极模型,跟 GPT-o1 来对标的,应该是 Claude 的高级模型 OPUS。如果一个提示词,就能让 Sonnet 达到 GPT-o1 的水准,那我们设想一下,我们是不是可以直接跟 OpenAI 的老板 Altman 喊话了:不要花钱训练模型了,你干点正事研究下提示词吧。
第二,提示词是否能够提升模型的表现呢?是的,没错。好的提示词,它确实能够提升模型的表现。但是不存在一个万能模板。给我一本详细的菜谱,可以让我炒的菜好吃一点,但是呢不可能我就变成大厨了。没有银弹,解决问题仍然需要持续的学习和迭代。
第三,神级提示词是否值得学习?是的,这位高手同学写的提示词啊,非常值得学习。
从神级 Prompt 中学习:AI 模型的分析
那有哪些值得学习的地方呢?我们同样可以让 Thinking Claude 和 GPT-o1 来给我们给出答案。
Claude 对神级 Prompt 的分析
好,首先我们来问 Claude:以下是一个详细的 prompt,用于提升大语言模型 Claude 的回答质量。请分析这个 prompt 的优点,有哪些值得 AI 爱好者们学习的地方,以及 AI 爱好者该如何通过学习此 prompt 来提高自己写 prompt 的能力。使用中文输出为 Markdown 格式的脑图。
然后我们再把 Richard 同学最新版的提示词拷贝过来,开始。
好,这边给出了思考过程,不过是英文。好,给出了挺长的一段,我们快速地看一下它的结果。它的核心特点,创新的亮点,思维模式,还有质量控制,以及交互设计。那学习的价值在于,学习提示工程的技巧,以及实践应用方法。能力提升,实践的建议,包括构建提示词,优化方法,应用场景,还有发展的方向,个性化定制,持续改进,创新探索等等。
那这就是 Claude 对这个提示词进行分析的一个结果。好,把它导入到脑图软件之后,是这样的一个效果。5 点,刚才我们已经看过了 5 点。
GPT-o1 对神级 Prompt 的分析
那同样的内容,我们再让 GPT-o1 去分析一下。好,这边是同样的提示,然后把 Thinking Claude 的提示词给它,开始。
好,这是 GPT-o1 给出的思维导图,对这个 Prompt 的分析。我们同样把它导入到脑图软件里面去再看。
好,这边就是 GPT-o1 给出的输出结果。首先这个 Prompt 的优点:提供了全面的思维框架,强调自然真实的思考过程,鼓励适应性思维,注重验证和质量控制,强调高级思维技巧,保持真实性和专注。第二点,值得 AI 爱好者学习的地方:如何去构建一个详细的 prompt,强调思维过程的重要性,然后适应性和灵活性,自然语言和真实性,验证和质量控制技巧。第三,AI 爱好者如何通过学习这个 prompt 来提高写 prompt 的能力呢:深入研究 prompt 的结构,然后来实践编写类似的 prompt,强调思维过程的引导,注重自然和真实的表达,加强验证和质量控制,学习高级思维技巧的引导,然后反复练习和改进。
OK,我认为 GPT-o1 的这张图,要比 Claude 给出的那张图,看起来更好看一些。那这张图我就导出之后,同样放在描述栏当中。
如果你希望系统地学习 AI,而不是被各种碎片性信息迷惑,请输入 axtonliu.ai,进入 AI 精英学院。这里有两门 AI 核心能力的课程,以及媲美收费内容的免费课程。立即加入,这将是你最值得的一次投资。