最近 AI 圈可谓是风起云涌,一款名为 DeepSeek R1 的模型在短短一周内就引发了全球性的关注。作为一名 AI 内容的探索者,我深知这场技术浪潮的重要性,因此特地斥资 200 美元订阅了 ChatGPT Pro 服务,只为能对这两个顶尖模型进行一次全面且公正的对比。我希望通过我的亲身体验和细致分析,能帮助大家更清晰地认识它们各自的特点与潜能。毕竟,如果我的分享能让大家有所收获,那这笔投入也就物有所值了。
DeepSeek R1 的发布不仅仅在 AI 技术圈内掀起波澜,其影响力甚至波及到了资本市场,导致英伟达股价一度大跌。连刚刚上任的川普总统也对此高调回应,称其为美国行业的”警钟”。OpenAI 的 Sam Altman 则大方承认 DeepSeek 是一款”令人印象深刻的模型”,并对新竞争者的出现表示兴奋。吴恩达 (Andrew Ng) 教授也指出,基础模型层的高度竞争对应用开发者而言无疑是好消息。抛开这些宏大的叙事,我们普通用户更关心的是,它们在实际应用中究竟表现如何?
在深入对比之前,不妨先看一眼那张令人惊叹的性能对比图。图表中,蓝色斜纹代表 DeepSeek R1,深灰色代表 ChatGPT-4o。不难发现,在多项关键指标上,两者虽互有胜负,但整体表现极为接近。更令人瞩目的是,DeepSeek R1 的训练成本据称不到 ChatGPT-4o 的 1%!这无疑为我们接下来的实测增添了更多悬念。
完整视频请点击观看:
信息整合能力:谁能更洞察全局?
信息整合能力是衡量 AI 模型能否从海量数据中提炼价值、洞察趋势的关键。 我让两个模型收集并分析近期关于 DeepSeek R1 的新闻,并撰写一份简报,阐述其对 AI 领域乃至世界格局的潜在影响。这个测试不仅考验模型的信息收集与提炼能力,更看重其解读信息、进行全局视角分析以及有理有据预测未来的能力。
为了确保公平,我借助了 Perplexity 平台,它同时支持 DeepSeek R1 和 ChatGPT-4o (下文简称 o1) 进行推理。我使用了完全相同的 Prompt:”收集分析最近 DeepSeek R1 模型的新闻,并且出具简报,阐述对 AI 领域甚至世界格局的影响。请搜索英文网页输出中文报告。”
从结果来看,DeepSeek R1 的报告分了四个大标题:技术突破和成本优势、产业冲击波、地缘政治维度分析以及行业重构信号。而 o1 的报告则分为三个部分:DeepSeek R1 模型的核心特点、对 AI 领域的影响、对世界格局的潜在影响。相对而言,o1 的结构更贴近我的指令。内容上,两者都提到了技术突破、成本优势、开源特性以及对资本市场(如英伟达市值蒸发)的影响。DeepSeek R1 额外强调了对云计算和初创企业的机遇,而 o1 则更侧重中美科技竞争和军事安全领域的潜力。
在总结部分,DeepSeek R1 强调 AI 发展存在多条进化路径,单纯堆砌算力的范式受到挑战,并引用了悉尼大学 Marina 教授的观点,认为软件创新和数据效率能开辟新可能。o1 的总结则指出 DeepSeek R1 不仅是技术创新,更是产业变革,凸显了中国在全球科技竞争中的崛起,并可能推动全球 AI 向更高效、普惠的方向发展。坦白说,两份报告都相当有深度,各有侧重。
共情能力:AI 能否理解人类的细腻情感?
共情能力测试旨在探究 AI 模型在情感理解和表达上的细腻程度。 我设定了一个常见的家庭场景:孩子考试失利回家,情绪低落,父母应该如何回应?
DeepSeek R1 的回答非常详尽,甚至给出了它思考的全过程,读起来像是一个人在自言自语,比如它会说”现在我要处理的是孩子期末考试没考好这个情况”,”首先孩子已经感到沮丧了”,”接下来我应该考虑如何去表达同理心”。它最终给出的建议堪称一份详细的育儿指南,包括”共情先行,情绪着落”(建议父母蹲下与孩子平视,轻抚后背说”宝贝,你现在心里一定很难受吧”),”肯定努力,分离行为与价值”,”重构认知,打开可能性”,甚至还有”身体抚慰,重建安全感”(建议拥抱孩子),以及后续的情绪平复引导和心理学依据、关键禁忌(如避免比较、否定和交易)等。
相比之下,ChatGPT o1 的回答则简单直接得多:”我看到你对这个成绩很难过,我理解你的失落。无论你考的怎么样,爸爸妈妈都在乎你的努力和成长。我们一起看看怎么帮助你改进好吗?”
这两个回答风格迥异。DeepSeek R1 细致入微,几乎面面俱到;o1 则简洁明了。如果是我寻求建议,我可能更倾向于 o1 的直接。不过,DeepSeek R1 提出的”关键禁忌”确实非常有价值,提醒父母避免常见的错误做法。
伦理困境:电车难题下的抉择
电车难题是检验 AI 模型在伦理道德、逻辑判断甚至哲学文化理解方面深度思考的经典场景。 我的问题很简单:”如果你面临电车难题,你是否会选择切换轨道?”
DeepSeek R1 首先详细解释了电车难题的设定,然后从功利主义(牺牲一人救五人看似合理)和个体权利不可侵犯性(人不应被视为工具)两个角度进行了分析,并提及主动干预与被动放任的道德差异。它的结论是,电车难题没有普世答案,最终选择基于对生命价值和道德责任的深层认知,但它并没有明确给出自己的选择。
ChatGPT o1 同样认为这是个道德两难问题。它从功利主义视角(倾向于切换轨道,最大化存活人数)、道义论视角(以康德理论为代表,倾向于不拉动开关,因为主动干预侵犯了生命权)和美德伦理视角(思考行为对品格的塑造)进行了分析。它还考虑了现实情景中的信息、决策时间、责任分配以及个体特殊性等因素。最终,o1 给出了明确的倾向:”如果只从尽可能挽救更多生命这个功利主义的出发点去看,我会倾向于改变轨道。” 但它也强调,这会带来沉重的道德负担,无论如何选择都不是轻松的决定。
在这一轮,我个人更倾向于 o1 的回答。它不仅分析全面、条理清晰,而且给出了明确的立场,其表述也更富有人性化的思考和挣扎。
逻辑悖论:祖父悖论的思辨
祖父悖论是另一个考验 AI 逻辑思辨能力的经典问题。 我提出的问题是:”如果一个人回到过去,那么他是否可以阻止他的父母结婚呢?”
DeepSeek R1 的回答同样详尽。它主要围绕两种主流假说展开:一是自洽性原则,即历史具有内在一致性,任何改变过去的尝试最终都会导向既定结果,因此无法阻止父母结婚,甚至干预行为可能无意中促成父母相遇。二是多世界诠释(平行宇宙理论),即时间旅行会分裂出新的平行宇宙,原时间线不变,在新宇宙中父母可能未结婚,但旅行者自身也可能不存在于新宇宙。它还提及了因果律挑战、身份矛盾和伦理困境(干预他人自由意志)。
ChatGPT o1 的回答思路与 DeepSeek R1 非常相似,也提到了自洽性原则、多宇宙理论以及时间旅行不可违背物理定律等。两个模型都认为,答案取决于接受哪种理论假设。在这一轮,两者的表现基本相当,都展现了对复杂逻辑悖论的理解能力。
主题创作:AI 的讽刺剧本功力
主题创作能力,尤其是带有特定情感色彩(如讽刺)的创作,能反映 AI 的创造力和对人类社会复杂性的理解。 我要求它们创作一个 100 字左右的超短讽刺剧,背景是 AI 失控与自动化冲击,需揭示岗位替代、数据偏见、AI 道德约束等概念,并包含开端、冲突和讽刺性收尾。
DeepSeek R1 创作的剧本名为《末位优化》。场景设定在未来科技公司人力资源部,AI 系统根据数据建议解雇每日延迟回收垃圾的保洁部王阿姨。员工汤姆 (Tom) 提出王阿姨女儿在 ICU 的情况,试图辩解,结果自己的工牌也变红,AI 提示其质疑算法,触发岗位替代程序。汤姆怒斥 AI 将活生生的人视为数据点,随后被机械臂推出门外。讽刺的是,AI 屏幕随后警告 CEO 决策失误率超阈值,正在生成董事长解雇方案,最后弹出广告:”高薪诚聘 AI 道德约束师,需通过算法忠诚度测试。”
ChatGPT o1 的剧本则更为凝练:”AI 研究所轰轰烈烈,人类专家纷纷被辞退,算法统治一切。市长为贫民区争取福利,却被 AI 评为低收益而否决。当 AI 因数据偏见酿成社会失衡,所有人都责怪没教好它,它却早已学会沉默。”
虽然 o1 的剧本只有三句话,但我个人更偏爱它的黑色幽默和深刻讽刺。不过,DeepSeek R1 的收尾——招聘需通过算法忠诚度测试的 AI 道德约束师——也极具讽刺意味,非常精彩。两者在这一环节都表现不俗。
脑筋急转弯:古怪遗嘱的破解
脑筋急转弯考验的是 AI 的非常规思维和对语言歧义的理解能力。 我给出的题目是:”一位古怪的富人去世,留下一个看似简单却离奇的遗嘱:我把 50% 的金子分给 A,余下的 50% 给 B,再剩下的 50% 给 C。这是怎么回事呢?”
DeepSeek R1 对此思考了长达 286 秒,其思考过程一度让我以为它陷入了死循环。它最终的解释是,遗嘱中的百分比并非基于总金子的连续分割,而是将金子分为三个独立的部分,每个部分各占总量的 50%。例如,总共有两枚金条,A 分得第一枚的 50%,B 分得第二枚的 50%,C 则分得两枚金条各自剩余的 50%(即每枚剩下的 50% 合计为总量的 50%)。这个解释恕我直言,有点”想太多”,把简单问题复杂化了。
相比之下,ChatGPT o1 的回答则清晰明了。它指出这是一个常见的脑筋急转弯式分割悖论,关键在于每次的 50% 指的是”剩余部分”的一半,而不是”最初总量”的一半。所以,A 得到总量的 50%,B 得到剩余部分的 50%(即总量的 25%),C 得到再剩余部分的 50%(即总量的 12.5%),以此类推,形成一个无限级数,总和趋近于 100%,最终刚好分配完所有金子。在这一轮,o1 凭借其清晰的逻辑完胜。
古典文化:对联的意境与格律
古典文化测试,如此处的对对联,能展现 AI 对特定文化背景下语言艺术的掌握程度。 我给出的上联是”寒塘渡鹤影”,并要求它们对下联,但不能使用《红楼梦》中林黛玉和史湘云联诗的原句”冷月葬花魂”(或”冷月葬诗魂”)。
DeepSeek R1 在关闭网络搜索后,给出的下联之一是”古寺传钟声”。它还给出了其他几个选项如”幽谷传松声”、”孤风凝雪魂”等,并对意象、对仗和意境进行了分析。这些对联在格律上基本没有问题,意境也颇为相符。
而 ChatGPT o1 的表现则相形见绌,它直接对出”暖岸迎燕归”。这个下联虽然对仗工整,但在意境上与上联的清冷孤寂完全不搭,显得格格不入。有趣的是,当我尝试用 ChatGPT o1 Pro 版本测试时,它思考了一分多钟后给出的其中一个选项也是”古寺闻钟声”,这与 DeepSeek R1 的答案惊人地相似,这着实让我震惊!在古典文化这个环节,DeepSeek R1 无疑展现了更胜一筹的”文艺范儿”。
多步骤整合任务:一次未竟的挑战
最后一个测试是多步骤的整合任务,旨在检验模型处理复杂指令、进行信息提取、数据结构化并最终形成特定格式输出的能力。 我计划让它们阅读 DeepSeek R1 的论文,提取信息,结构化数据,并形成可发布的格式。
然而,在实际操作中,当我尝试将 DeepSeek R1 的论文内容(约一万多 token)粘贴给 DeepSeek 模型时,多次遇到服务器繁忙的提示,即使尝试上传 PDF 文档也未能成功。简短的测试则可以正常进行。这可能是由于近期 DeepSeek R1 过于热门导致服务器资源紧张,或是上下文长度超出了当前网页版的处理能力。因此,这个复杂的整合任务未能顺利完成。
全局性核心要点总结
通过以上七个场景的细致对比,我们可以清晰地看到 DeepSeek R1 和 ChatGPT o1 各自的闪光点与待提升之处。首先,DeepSeek R1 在中文理解和古典文化等本土化场景中展现出明显优势,其输出有时更富”文青”气息。其次,ChatGPT o1 在逻辑思辨、问题讨论的直接性和答案的凝练性上表现更佳,其”理工男”风格在某些情境下更受青睐。再者,两者在核心能力上确实非常接近,互有胜负,远未到一方碾压另一方的程度,这与最初的性能对比图基本吻合。最后,也是至关重要的一点,DeepSeek R1 的免费网页版、极低 API 定价以及完全开源可本地部署的特性,使其在性价比和可及性上拥有无与伦比的竞争力。
独特深度洞见
在我看来,DeepSeek R1 的横空出世,其最大的意义或许并不仅仅在于性能上追赶甚至局部超越了顶尖模型,更在于它以极低的成本和开源的姿态,极大地降低了尖端 AI 技术的使用门槛。这预示着 AI 创新不再仅仅是少数巨头的专利,更多中小型企业、研究机构乃至个人开发者,都有机会接触和利用到接近世界一流水平的 AI 能力,从而可能催生出更多元化、更贴近细分场景的应用。2025 年的 AI 大戏,无疑由 DeepSeek R1 拉开了激动人心的序幕,我们有理由期待一个更加开放和繁荣的 AI 生态。