10篇报告深度评测!Gemini 2.5 Pro vs OpenAI Deep Research,谁才是AI研究之王?| 回到Axton

谷歌Gemini 2.5 Pro与OpenAI Deep Research的全面对比评测

我耗时三天深入研究了谷歌和OpenAI的Deep Research功能,发现谷歌在某些方面确实展现出了技术积累的优势,但并非全面领先。

我对比了两家公司的Deep Research功能,选择了5个主题进行深入评测,包括AI对人类社会的影响、人类创作者的价值、中美贸易脱钩的影响等方向。在第一类研究中,OpenAI表现更为出色,而在第二类经济研究中,Gemini展现了明显优势。

通过对比发现,Gemini和OpenAI各有所长。Gemini倾向于学术化、系统性的分析,信息量大,框架严谨;而OpenAI则更注重可读性、实用性和落地性,文字功底更深,逻辑更为流畅。这种差异反映了两家公司的不同风格——谷歌展现出大厂的全面周到,OpenAI则体现了创业公司的直接实用。

两家AI的特点与适用场景

Gemini更适合宏观深度研究和学术分析,而OpenAI更擅长提供清晰易读且可落地的解决方案。

在研究风格上,Gemini的结构更加复杂,信息量更大,更偏学术化,适合需要深度理论框架和系统思维的研究。例如,在讨论AI局限性时,Gemini会引入P-creativity(心理创造力)和H-creativity(历史创造力)等学术概念,分析更全面但阅读负担较重。

OpenAI则采用更为通俗易懂的三段论结构,先提出论点,然后用论据支持,最后总结呼应。其行文风格流畅,重点突出,建议更具体可落地。这种风格在需要实际操作指南的场景中更为实用。

两者的差异在分析AI对普通人生活影响时尤为明显:OpenAI更偏向生活化场景描述,而Gemini则提供更成熟的技术洞察,指出AI主要是对现有产品服务的智能化赋能,而非创造全新生活方式。

如何有效使用Deep Research功能

使用Deep Research时,注意修改研究计划并避免过度强调字数要求,能显著提高研究质量。

使用Gemini时,必须注意检查并修改其研究计划。Gemini会提供研究方案,但如果不进行针对性修改,可能导致报告过于宽泛。例如,在分析AI对全球经济影响时,如果不指定具体国家或地区,Gemini会进行全球性论述,显得泛泛而谈。

对于字数要求,不建议在prompt中强调具体字数。我发现当不要求字数时,OpenAI输出了约5000字的报告,质量反而好于被要求输出2万字的版本。过度强调字数可能导致AI为了凑字数而过多展开不必要的细节。

最理想的使用方式是让两家AI协同合作:Gemini作为首席分析师负责搭建宏观框架、学术引用和全局布局,OpenAI作为首席沟通官将深度内容转化为易读的摘要、建议和实例化方案。这种协作能够结合两者的优势,产出更全面且实用的研究报告。

AI评测结果与个人判断

在我的测试中,Gemini以微弱优势领先,但两者各有所长,适合不同研究需求。

我不仅自己对比了报告质量,还让四个AI模型(Gemini 2.5 Pro、Claude 3 Sonnet、GPT-o1 Pro和GPT-4.5)进行评估。在经济研究方面,多数AI评估认为Gemini表现更佳,但在分析AI对人类影响方面,结果更为复杂。

有趣的是,在某些主题上,AI们的评估出现了分歧。例如,在分析贸易中断对普通家庭影响时,只有GPT-4.5认为OpenAI的报告更好,而其他AI都支持Gemini。而我个人的判断恰恰与GPT-4.5一致。

最终,经过综合评估并加入我的主观判断后,Gemini以0.1分的微弱优势领先。但这个结果基于有限样本,不同研究主题可能会有不同表现。

实用建议:何时选择哪种AI进行研究

根据研究需求的性质选择合适的AI工具,或让两者协同工作以获得最佳结果。

当你的研究需求复杂、宏观、学术性强或需要多文献综述时,选择Gemini;而当你更看重落地实践、执行对策、报告可读性和具体案例时,选择OpenAI更为合适。

最理想的方式是两家AI协同合作:先用Gemini进行大范围文献检索和框架搭建,再让OpenAI将内容转化为易读的摘要和执行方案。这种协作能够充分发挥两者的优势,产出既有深度又易于理解和执行的研究报告。


核心观点

  • AI研究工具各有特长:Gemini擅长宏观学术研究与系统思维,OpenAI更专注实用性与可读性,选择应基于具体研究需求
  • 使用Deep Research功能时,必须检查并修改研究计划,避免过度强调字数要求,这能显著提高输出质量
  • 两大AI平台呈现出背后公司的特性:谷歌体现大厂的全面周到风格,OpenAI展现创业公司的直接实用特点
  • 在复杂研究中,最佳策略是让两家AI协同工作:Gemini负责框架与学术深度,OpenAI负责转化为可执行方案
  • AI评估结果显示,不同模型对同一研究的评价可能存在显著分歧,反映了AI评估本身的主观性和局限性

关键洞见

AI研究工具的分化反映了技术与用户体验之间的根本权衡——谷歌Gemini和OpenAI的Deep Research功能展现了两条截然不同的发展路径:一条追求学术深度与系统性,另一条注重实用性与可读性。这种分化不仅体现了两家公司的技术哲学,更揭示了AI工具正从通用型向专业化方向演进,未来最有价值的AI应用将不是全能的”瑞士军刀”,而是能够在特定领域提供深度价值的专业工具,或能够无缝协作的AI工具组合。

请点击观看原始视频:


Gemini 2.5 Pro 与 OpenAI Deep Research 深度对比评测

研究背景与评测方法

4月8日,谷歌发布了 Gemini 2.5 Pro 驱动的 Deep Research,并毫不客气地贴出了跟 OpenAI Deep Research 的对比图,声称在所有项目上都甩了 OpenAI 一条街。我第一眼看到的时候,心里就两个字:吹吧你就。但是以前我就一直说,谷歌它在生态和技术的积累上面的优势不可小觑,这不是其他公司可以轻易超越的。

所以我就花了整整三天时间,仔细地研读并且逐一对比了 5 个主题,一共 10 篇 Deep Research 的报告。谷歌这次到底是不是真的行?能不能以 20 美元全家桶的价格吊打 200 美元的 OpenAI 呢?这期就给你一场深度的评测。

我们这期评测的选题首先用来对比的研究主题分为两类,每一类的主题我们分别选择全面分析和专项分析。第一类我们以 2025 年斯坦福的 AI 指数报告来作为切入点,一个主题来全面分析 AI 发展对人类社会的影响,另外一个主题分析在内容创作方面 AI 的边界和人类创作者的价值在哪里。第二类我们就以目前的热点关税为切入点,三个主题分别是全面分析中美脱钩的影响,然后中美脱钩对收入为中位数的普通家庭的影响,以及美国贸易逆差的根本原因。

第一类研究:AI 发展对人类的影响

研究方法与 Prompt 设计

首先开启 Gemini Deep Research 的方法,登陆到谷歌的 Gemini 之后,模型我们选择 Deep Research with Gemini 2.5 Pro,或者你也可以在任何一个模型下面选择点击 Deep Research 这个按钮,这两种方式结果都是一样的。

我们先看第一个主题的 prompt。第一个主题的 prompt 首先 context 上下文:基于 2025 年斯坦福 AI 指数报告的要点内容,人工智能正迅速的影响全球经济、就业环境和社会结构。那研究的目标呢,当 AI 已经高效输出大量标准化的内容,并且逐渐的靠近人类表达的边界的时候,人类创作者的独特价值体现在哪些方面,又应当如何具体的行动来保持并且凸显自己的竞争优势。然后就是一些通用性的指导信息:用简体中文输出,风格偏实用,有条理,可读性强,仅搜索和采纳英文可信来源信息,用中文撰写报告,你的唯一目标是提供足够细致深入的研究报告,无需关心时间消耗以及响应速度,报告长度至少两万个中文字。

接下来这里呢,其实有一个非常重要的技巧需要注意了。我们先看 OpenAI 的 Deep Research 那边,OpenAI 这边是同样的 prompt。当 prompt 输入之后呢,ChatGPT 呢,它就会根据你的 prompt 来问你一些需要澄清的问题,比如这个提示,ChatGPT 就会问你:你的创作者是哪一类?你希望报告重点聚焦在哪一类创作者上?那这就说明什么呢?这就说明我的 prompt 里面对人类的创作者没有明确的进行定义,所以回答这些问题呢是很重要的一步。

那 Gemini 那边有没有类似的功能呢?实际上是有的,但是呢很容易会被大家忽略,那就是 Gemini 的研究方案。有人觉得 Gemini 的 Deep Research 的报告呢,有些泛泛而谈或者面铺的很大,那很可能是没有注意到去检查和修改 Gemini 的研究计划。比如这里面,Gemini 的研究计划里面呢,它实际上也提出了和 ChatGPT 那边一样的问题,比如我们看第二点:在不同创作领域(写作、艺术、音乐、设计等)的具体表现和范围。那实际上它在这边,把人类的创作者是界定到了一个很宽的范围,那这时候呢,我们实际上就需要去修改它这个研究计划了。我们把创作者要进行限定,跟 OpenAI 那边的创作者限定成同样的类型,否则很可能它最终的结果呢,你就会觉得流于宽泛。所以呢,这边我就会让它去修改它的研究方案,把作者呢,创作者呢,聚焦于我这样的 YouTuber 自媒体创作者,无需考虑其他的领域。

研究报告对比分析

我们来看对比他们的研究报告,最终结果是 OpenAI 输出了 22,100 个字,Gemini 输出了 21,800 个字。右边是 OpenAI,左边是 Gemini,我们先看一下他们的整体结构。

我们来看一下它的目录,OpenAI 的目录:首先一个前言,然后人类创作者具备的独特优势,自媒体创作者如何打造不可替代性,国内外成功案例的分析,使用建议。再看 Gemini 的目录:前言,然后 AI 赋能内容创作:能力版图和效率革命,第二章:机器的边界:透视 AI 在创作中的局限性,第三章:人类创作者的独特印记:不可替代的核心价值,第四章:未来生存法则:YouTube 自媒体创作者的战略行动指南,第五章:实践者之鉴:创作者适应 AI 浪潮的案例分析,最后一个结语。

从整个的结构上来看,我的对比的感觉是 OpenAI 结构逻辑清晰,层层递进,读者非常容易跟随 OpenAI 的思路,读起来你会感觉到比较舒服。而 Gemini 这边,它的结构会更加的严谨,但是过于复杂,更偏学术化一些,再加上它的排版特点,阅读起来其实很费劲。

我们来看前言部分,前言部分 OpenAI 很明显的就是使用了实际案例和精准的数据,那这一点呢是我很喜欢的风格。比如这边的投资额同比增加了百分数,然后 AI 的基础成本降低了多少倍,280 倍,之后还有调查 60% 的人认为 AI 将改变自己的工作方式。在第二段重复了 Prompt 的要求,首先要梳理 AI 在文案创作方面的能力的发展和趋势,接着总结人类创作者仍然具备的优势领域,随后讨论自媒体创作者应该如何去打造自己的不可替代性,等等,这是他的前言。

而 Gemini 的前言,实际上他采用了一个类似的结构,但是他没有 OpenAI 这边这么明确精准的这些数据,但是他的视角相对来说会更宏大一些,他不但会探讨 AI 的技术进展,他还要探讨 AI 的经济影响,这是二者前言部分的一个区别。

而正文部分如果读下来,我们就会感觉到 OpenAI 的文字功底更深一些,它的行文风格更加的通俗易懂。比如我们来看这一段关于 AI 的局限性,这两段进行对比,OpenAI 这边:

“然而 AI 的表达能力也有明显尚未逾越人类的边界,首先是深层次的创意和个性。AI 擅长的是根据大量的范例进行模式归纳和重组,本质上是一种模拟和拼接。这位 Innes Lee 形象地把当下的 AI 比作完美演奏每一个音符的翻奏乐队,技巧上无可挑剔,却始终缺乏原创乐队的灵魂与即兴的绝世感。正如他所说,AI 目前生成的大多是够用的内容,在正确性和结构上挑不出毛病,但让人感觉不到鲜活的个性。这种千篇一律的正确,恰恰暴露了 AI 与富有创造力的人类之间的差距。真正打动人心的内容,常常源自独特的人格视角、奇思妙想,甚至反常规的表达,而这些是 AI 难以自发产生的。”

OpenAI 的行文非常的流畅,通俗易懂,它的叙述有明显的一个三段论的结构,先提出论点:深层次的创意和个性,然后是论据或者举例进行论证说明,最后再来一个总结进行呼应。

而我们看 Gemini 这边,它的行文风格就更加学术化了,用词汇更加书面。比如我们看:

“模仿而非创造:AI 生成内容的核心机制需学习和模仿。它通过分析海量的现有数据(文本、图像、音视频等),识别其中的模式、风格和结构,然后基于这些学习到的模式进行重组、混合和生成新的内容。这种过程更像是对已有元素的巧妙再混合,而非人类意义上从无到有、突破常规的原创思考。AI 难以产生真正意义上实质性突破的新概念、新范式,或完全脱离训练数据范畴的独特思想。学者马格丽特·博登将这种对系统自身而言新颖的创造力称为’P-creativity’(心理创造力),以区别于被整个社会公认新颖的’H-creativity’(历史创造力)。当前的 AI 主要停留在 P-creativity 层面。”

那这一段实际上他说的跟 OpenAI 这一段是同样的意思,但是他的整个的行文风格呢就用词更加书面,相对来说,他包含的信息量也会更大,同时他还能提出一些新颖的概念,比如这个文中提到的 P-creativity 和 H-creativity,这两个词对我来说就是新名词了。

总之,这个一整段下来呢,OpenAI 和 Gemini 这两者,他都很好的论述了 AI 的局限性,虽然 Gemini 读起来,他要比 OpenAI 来更加的费劲,但是呢,他更全面的表达了 AI 的边界,表现还是很不错的。另外 Gemini 的写作风格,他依然还是一种列举式的,比如章节,然后内容就是第一条、第二、第三、第四,这种列表形式的,而不是 OpenAI 这边这种叙述式的风格,这点其实跟他的 Gemini 的第一代 Deep Research 是相像的。

最后这一段就是对自媒体创作者如何打造不可替代性,也就是对我这样的 YouTube 自媒体创作者的行动指南。那这一章呢,我读下来,我认为 Gemini 的这一章简直就是败笔了,说的全对,但是大而无当,没有具体的可落地的方案。而 OpenAI 这边的建议呢,它就会细致到一些具体的建议。所以读这两篇的报告呢,我脑子里就会出现一句口号:要学术,找谷歌;要落地呢,就找 OpenAI。

那对于这一份报告的总结,OpenAI 整个的结构清晰、简洁、逻辑顺畅、重点突出,读起来没有太大的负担,所以他的阅读体验就很好,而给出的这些建议呢,也比较细致和实用,数据和案例也很丰富,配合得也很好。Gemini 相对来说呢,他甚至分析全面深入,他的信息很丰富,开篇就会给你一顿信息量的暴击,除此之外的其他方面,我认为不如 OpenAI。这篇文章呢,可以说 OpenAI 以绝对优势领先,但是 Gemini 它的文章质量也不差啊,它跟上次我做 Deep Research 的对比视频的时候啊,已经完全不可同日而语了。

第二个研究主题分析

我们来快速的过一下第二个研究主题。第二个研究主题是相对来说更大面的,上下文都是一样,基于 2025 年斯坦福 AI 指数报告。研究的目标呢,是探讨当前人工智能的发展趋势对全球经济、劳动市场和社会结构可能带来的长期影响,评估未来三到五年 AI 发展对普通人日常生活可能带来的具体变化。后面的要求、通用要求都是一样,但是这里面没有文字的要求。虽然没有对字数进行要求,他们写出来的报告呢,Gemini 是用了两万三千个词,OpenAI 输出了两万九千个词,这都是两个长篇报告。

同样我们右边是 OpenAI,左边是 Gemini。这个我们就快速的过一下,那整个的结构上来说呢,OpenAI 它还是一样,结构完整,逻辑顺畅,衔接比较自然,保持了一贯的风格。Gemini 呢,也有很不错的结构,但遗憾的是 Gemini 最后它没有输出完成,它最后中断了。Gemini 在应该是最后一章了,主要风险和挑战的时候,没有输出完成,中断,输出的文字是两万三千个字左右。那除了中断之外呢,它的整体结构啊,相对来说,依然是比 OpenAI 要复杂,而且它不如 OpenAI 那么连贯,缺乏承上启下的这种连贯性,所以导致你读起来会很累。

然后在人工智能对全球经济的长期影响这一段呢,Gemini 这边相对来说就说的比较宽泛,但是呢,这边不怪 Gemini,后面我们讲到使用技巧的时候回来解释。OpenAI 就针对中国、美国、欧洲、加拿大进行了详细的分析。

然后我们来看对劳动力市场的长期重构这一方面,这两份报告,他们都提到了未来的 AI 系统训练师、人机协作管理专员,这一类的角色。之前我在我的这场直播当中啊,就提到一个竞争力公式,AI 时代的竞争力呢,就等于人机协作的深度乘以系统设计的能力,这同时也是我现在正在开发当中的课程所希望教给你的实际的核心的能力。

然后我们看这边对技能的要求,OpenAI 的风格呢还是重点明确,它的用词呢也比较通俗准确,比如软技能,然后学,然后知不足,Gemini 这边还是学术化的风格,高阶认知与社交情感技能溢架。但是 Gemini 很好的一点在于,它提出了一个技能悖论的概念:

“有一个值得关注的技能悖论,一方面呢,AI 工具它有潜力来通过辅助低技能工人完成特定任务,弥合现有的技能差距,但另一方面呢,AI 又能催生对全新的更高阶技能组合的巨大需求,那这就会造成一种很难跨越的技能鸿沟,也就是能够有效的理解利用和驾驭 AI,并且跟它协同工作的人,跟那些无法适应这种新工作范式的人之间的差距,这种鸿沟啊,它必然会带来社会和经济的一个不平等。”

那作为对比呢,其实 OpenAI 这边它也提到了鸿沟,在这边社会不平等,鸿沟的扩大是否会加剧,但是呢,OpenAI 用了很均衡的一个论述方式:

“一方面,AI 可能加剧收入和财富的不平等,是强者愈强弱者愈弱,而另一方面呢,也有观点认为,AI 有潜力缩小不平等,促进包容性增长,前提是其收益被合理的分配,然后做过一些 AI 提升低技能劳工生产力的实验,一些经济学家对实验结果表示乐观,认为支持了 AI 赋能低技能者的假设。”

所以两边同样讨论到了相似的内容,但是 OpenAI 这边它相对来说比较均衡,反正两边都说到,均衡的是 OpenAI 这篇报告的一个优点,但是我其实并不太认可它这个很乐观的这个部分的这个观点,因为它这边的一个前提就是收益要被合理的分配,而收益的合理分配呢,其实是一个难题。

接下来我们看最后对 AI 对普通人日常生活三到五年之后的影响的这个预测,那这一块相比之下呢,OpenAI 的分类更为合理,那 Gemini 稍微弱一点,分类不如 OpenAI 这么系统。我们来看 OpenAI 的分类啊,就业与工作方式,教育和学习,医疗健康,城市生活,公共服务,消费习惯与生活方式。那 Gemini 这边的分类呢,衣食住行,健康和医疗,工作学习,文化娱乐,四个分类,整个分类它不如 OpenAI 这么的合理和系统。

在总结的这一块呢,它们两个也有非常明显的风格的区分,OpenAI 会更加文艺范儿,比如我们来看:

“在未来三到五年内,我们将逐渐习惯这样一个世界,我们的购物车懂我们甚于朋友,我们的娱乐清单有算法贴心的准备,我们的日常起居有 AI 提醒和优化,大部分情况下,这将带来便利和愉悦感,科技真正以人为本,为我们所用。”

这是一个很生活化的一个场景。但是 Gemini 这边,就有体现了它更成熟的一个技术洞察。Gemini 因为最后中断,所以我们这边就找它跟生活相关的这一部分,这边衣食住行这边的生活相关的部分:

“观察这些场景可以发现,未来三到五年内,AI 对日常生活的改变,可能更多的体现为对现有产品和服务智能化的赋能和体验升级,而不是创造出完全颠覆性的全新生活方式,比如各种底层技术,自动驾驶,智能家居等等,实际上已经存在了一段时间,AI 在近期的主要作用是让这些技术变得更聪明,更应用,更可靠,更懂用户需求,普通人感受到的变化将是渐进式的,等等。”

所以 Gemini 在这边相对来说就是更加技术向,就不像 OpenAI 那么文艺范儿。

那总体而言这篇文章呢,我认为 OpenAI 它是胜在它的同样结构完整逻辑流畅,信息的组织更加清晰的合理,讨论问题也会有双方面的更加均衡的一些讨论,再加上我们之前看到的 OpenAI 的文字的功底更深,它是一个完整的思维辑呢,因此我认为这篇研究报告呢,OpenAI 略微强于 Gemini,因为 Gemini 的这个报告,依然体现出了一个相当的水准,它不像上一篇报告那样,我觉得明显不如 OpenAI,这篇报告也只能说没有比 OpenAI 差多少,它只是在信息的组织啊,行文的流畅性方面略有不足,可读性差了点,并且没有输出完成,这也是一个十分像。

第二类研究:关税与贸易影响

那刚才讲到的对这两个研究报告的文字版呢,我会分享给大家,大家可以点击描述栏当中的链接阅读,订阅了 AI 精英周刊的朋友呢,我会把全文发送到您的邮箱,四份 PDF 文档呢,我也会上传到 AI 精英圈里边,有兴趣的朋友可以去看。

那接下来第二类的研究呢,是关税,这份研究啊,一共拆分了三个主题,从全面分析到针对性分析,再到归纳性的总结。那三个主题的问题呢,分别是以下三个问题,我们就来看这三个 prompt。

第一个:假设中美完全停止所有双边贸易,哪个国家会面临更大的问题?

第二个:中美贸易完全中断后,两国消费者最先会在哪些日常消费品(如电子产品、服装、玩具、食品)上感受到显著的短缺或者价格飙升?这对于所在国家庭收入中位数为代表的普通家庭生活的成本具体影响有多大?在可预见的未来,这类家庭的生活状况是否会好转?

第三个:美国挥之不去的贸易逆差,根本原因是什么?搜索英文可信来源以中文撰写报告。

因为我对经济是一窍不通啊,我没有办法去判断报告的数据论点的正确性,因此呢,这类报告的内容就不跟大家一起看了。但是呢,我对比了他们报告的论述方式,并且让手上的四大 AI 分别对这些报告做了评比,包括 Gemini 2.5 Pro、Claude 3 Sonnet、GPT-o1 Pro 和 GPT-4.5。这个结论确实太让我出乎预料了,三个主题的评比,我个人的评比结果呢,OpenAI 只在消费者影响这个报告当中胜出,其他两份全部落败,而 AI 们的评比更是为 Gemini 在全面的碾压 OpenAI。

我们一起来看一下,简单的看一下他们这个评分。首先贸易中断的全面影响这个主题,报告一是 Gemini,报告二是 OpenAI,那从这个雷达图上就可以看出,紫色是 Gemini,绿色是 OpenAI,Gemini 全面的超越 OpenAI,这三个 AI 的最后评比结果完全的一致。其中 Gemini 没有办法来完成这个任务,不知道什么原因,所以这边就是 Claude、GPT-4 和 GPT-3.5 做出的评估,一边倒地认可 Gemini 的胜出。所以我们看综合之后的这个评分结果,除了在结构和逻辑清晰度方面 OpenAI 稍微好一些之外,OpenAI 只比 Gemini 弱了一分,其他全是有两分的差距。

然后第二个就是贸易中断对普通家庭的影响,我们先来看 AI 模型的一个评估对比,这个评比其实就比较有意思,这个评比结果,我们来看一下,那这个里面呢,报告一是 OpenAI,报告二是 Gemini,首先我们来看 Gemini 做评委,报告一只是在结构和逻辑清晰度上面略微胜出,也就是 Gemini 领先,然后再看 Claude 的评委,Claude 认为 Gemini 全部的强于 OpenAI,再看 o1 Pro 跟 Claude 的结果一样,唯一不一样的就是 GPT-4.5,GPT-4.5 在这个评估当中,它认为 OpenAI 的报告强于 Gemini,完全跟他们相反。

所以我们看前面几个,基本上大部分认可都是报告二、报告二、报告二,也就是 Gemini 更好,只有 GPT-4.5 认为报告一 OpenAI 的报告全面胜出。那这两份报告呢,我也同样仔细的阅读了一遍,最后我的判断是跟 GPT-4.5 一样,我认同 GPT-4.5,所以这一轮我认为 OpenAI 胜出,但是这边我觉得很有必要去仔细的去探讨一下,为什么他们会有这么完全的不一样的分析结果。

我们再来看第三项,美国的贸易逆差削不住的根本原因,报告一是 Gemini,报告二是 OpenAI,同样我们也有一个对比图,Gemini 当评委的时候,报告一完全胜出,Claude 做评委同样,报告一胜出,o1 Pro 也是一样,GPT-4.5 也是一样,所以这个报告基本上大家没有任何的不一致,全部都投给了报告一,也就是 Gemini。

Gemini 与 OpenAI 特性分析与使用建议

我们来简单的分析一下 Gemini 和 OpenAI 的特性,在阅读报告的过程中呢,我感觉就可以从报告当中看到背后公司的影子,一个是大厂风格,谦词造句,极尽周全,比如在分析贸易中断的时候呢,他会反复的强调,说这是一个假设啊,这不会真的发生,而另外呢,一个就是创业公司的风格,你要啥给啥直接落地。

所以给我的感觉,目前的感觉,Gemini 更适合于一个宏大的主题研究,当做一个研究报告来用,而 OpenAI 呢,他更能精准的去探索一个相对来说更垂直的一个议题,更垂直的一个方向,他会真正的在给你回答问题,给你给出能够实操性落地的一些结果。

这整张表格呢,就是让 AI 根据 AI 的评价以及我的这个分析结果汇总之后的一个对比的分析报告。当然这边我也要说的周全一些啊,目前我们只对比了五个主题的报告,这是一个很小的样本的测试,所以如果你的感觉跟我不一样,或者完全相反,这非常的正常,当然也欢迎一起来探讨。

所以我们这边可以简单的看一下这两个研究报告,Gemini 倾向于宏观深度理论框架和系统思维,那 OpenAI 呢,更倾向于易读、实用和受众友好,这是他们的一个特征。那什么时候去选择呢?我们可以选择单独使用,也可以选择让两个 AI 来协同合作。当你的课题复杂宏观、学术性政策、多文献综述的要求比较高,那这些方面的需求呢,你就选择 Gemini,而当你更看重落地实践、执行对策、报告的可读性、易传播非常关键,比如媒体公关啊,普通公众创作者,还有重视具体的案例,可操作的指引,那么选择 OpenAI。

那理想的方式呢,就是来两家 AI 协同合作,比如 Gemini 做首席分析师,OpenAI 做首席沟通官,Gemini 负责搭建一个宏观的框架,输出一些核心的机制学术引用和全局的布局,OpenAI 来负责对上面的深度内容进行转化,转化成更易读的摘要分点建议,实例化方案或者图表整理。那具体的协作方式,初步先使用 Gemini 进行大范围的文献检索,跨学科的梳理,提出关键假设,精炼的阶段,让 OpenAI 来进行精炼,把高密度的文稿改写成简洁的执行手册,摘要文件或媒体可理解的版本,最后再让 Gemini 去检查。那这点我感觉是不是有点小看 OpenAI 了,这还需要我们在后续再多感觉一下,多做一些报告,但是这种大面上的合作,目前我是认可的,Gemini 的报告,包括它查询的范围是非常的广,远远广于 OpenAI,那么让它来做大范围的一个初稿,文献检索,让 OpenAI 去进行精炼,我觉得这倒是一个很合理的一个方向。

那最终呢,我们让 AI 把这个所有的几项评分给综合起来看一个结果,首先五个报告,如果完全由 AI 来进行评比的话,这本来是压倒性的胜利啊,四份报告领先,而 OpenAI 只赢了一份报告,分数上差距也比较大,但是呢,我对它进行了干预,我对它们的评估结果,实际上相当于我扳回了两个,在消费者这边,咱们前面您说过,我认可 GPT-4.5 的结果,所以这边我就让 OpenAI 赢了,在这个斯坦福 AI 指数的分析报告上面呢,也出现了一个比较有意思的结果,这边我们来看 Claude 做的这个结果,结果在斯坦福 AI 指数报告的分析方面,出现了跟类似于这个报告评比的一个同样的情况,这一轮评比 Claude 完全赞同 OpenAI,而其他的 AI 都赞同 Gemini,而我个人的对比结果,我是认同 Claude,而且这些是我先进行对比,然后之后才让 AI 去做评比的,所以很有意思,这个我认可 Claude,上一个我认可 GPT-4.5,而且这两个都是在他们里面的小众,这个经过我干预之后的最终的结果,然后让 Claude 进行了一下权重,给出的最终结果,Gemini 以微弱的优势,0.1 分的优势领先于 OpenAI。

使用技巧与总结

最后两个比较重要的技巧,这个其实我们在前面都已经提到过了,咱们再来重复一下,首先一点就是 Gemini Deep Research 的研究计划,我们要去仔细的去看一下,如果不太合适的地方,我们一定要去修改它的研究计划,比如我们前面在 AI 对全球经济的影响上面,认为 Gemini 说的有些泛泛,而 OpenAI 针对中国北美和欧洲进行了针对性的详细分析,当时就说的是不怪 Gemini,确实是不怪 Gemini,因为 OpenAI 提出了问题,它是否希望涵盖某些具体的国家或地区,实际上我给了它具体的国家和地区,而 Gemini 那边,它的研究计划里头也有,但是它提示的是研究全球的范围,结果我没有去修改它的研究计划,所以最初它给出来的就是全球范围的一个论述,相对于 OpenAI 自然就显得有一些泛泛了。

第二点对 Prompt 的字数要求,我们不一定要去建议它一定要 Deep Research 输出具体的字数,因为在 AI 时代,AI 边界与创作者价值分析报告这个主题,如果我不要求字数,OpenAI 它实际上只输出了 5000 个词就交差了,而 Gemini 即使不要求它的字数,它也输出了 2 万多字的报告,但是我后来大概看了一下 5000 字的报告,其实它的质量并不弱,甚至会好于 2 万字的那个报告,整个讲得更加的精炼,因此我不建议大家去强调字数,否则 AI 很可能就为了凑字数,去过多的展开细节了。

掌握系统化思维,构建你的AI智能体

工具思维跨越到智能体思维,掌握系统化的方法论与AI智能体构建能力,构建可迁移的AI自动化技能,随时适应新需求!

7 阶实战体系,一步步带你从零基础到高阶自动化

◆ 立即节省2小时以上的重复劳动,效率提升10倍!

◆ 现在订阅,限时享受独家优惠,解锁你的AI竞争优势!



立即开启AI智能体进化之旅 →

Axton二维码

扫码关注获取更多资源

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部