GraphRAG 之 GPT-4o vs 4o-mini: 便宜 37 倍,效果能差多少? | 回到Axton

大家好,我是 Axton。最近我进行了一项有趣的实验:使用微软最新发布的 GraphRAG 来处理一本小说。令人震惊的是,如果采用 GPT-4o 模型,整个过程花费了大约 3 美元(更新至 2025-05);但换用最新的 GPT-4o Mini 模型后,成本骤降至仅 0.08 美元(更新至 2025-05)——足足相差了 37 倍!那么,效果上又有多大差异呢?结果可能会让你大吃一惊。今天,就让我带大家深入对比测试一番,看看在 2025 年这个 AI 技术飞速发展的背景下,我们如何能更经济高效地利用这些强大工具,从中获得实实在在的收益。

RAG 的困境与传统方案的局限

在深入 GraphRAG 之前,我们有必要先理解传统 RAG (检索增强生成) 的基本原理及其面临的挑战。 很多朋友可能已经对 RAG 有所了解,如果想直接看对比测试,可以跳转到后续章节。RAG 技术的出现,主要是为了解决当前大语言模型面临的三大核心问题。

我曾看到一个非常贴切的例子来说明这些问题。假设我家孩子问我:”哪一个行星的卫星最多?” 我依稀记得小时候在某本书上读到过相关内容,于是我回答说是木星,有 95 颗卫星。这个答案显然是错误的,但也恰恰反映了大模型的三大痛点。首先,信息是过时的。我们曾经以为木星拥有最多的卫星,但新的天文学发现早已证实土星才是真正的”卫星之王”,拥有多达 146 颗卫星(更新至 2025-05)。每当有新模型发布,我们总会关心它的训练数据截止日期,例如新发布的 GPT-4o Mini,其知识库截止于 2023 年 10月(更新至 2025-05),这意味着此后的信息它是不知道的,这就是数据的时效性不足。

其次,尽管我的记忆是错误的,但我还是信誓旦旦地给出了答案,这就是大模型常见的”幻觉”问题。最后,我只记得曾在某处看到过,但具体是哪本书、哪一页,我完全无法回忆起来,也就是无法溯源。这些都是大语言模型自身固有的局限。为了克服这些问题,RAG 应运而生。RAG,即检索增强生成 (Retrieval Augmented Generation),其核心思想是在大模型生成答案的过程中,引入一个外部知识库。

回到刚才的例子,如果使用 RAG 系统来回答”哪个行星卫星最多”的问题,它会首先去一个实时更新的数据库(比如 NASA 的最新数据)中检索相关信息,然后基于搜索到的准确内容来生成答案。因此,RAG 技术使得大语言模型能够处理它们训练时未曾见过的私有数据,这也是为什么拥有大量内部文档的企业对 RAG 技术表现出浓厚兴趣的原因。简单来说,RAG 的工作流程首先是建立知识库:将文档分块、向量化(例如,通过词向量技术,使得”猫”和”狗”在语义上因同属”动物”而接近),并存入向量数据库。当用户提问时,问题同样被向量化,然后在数据库中进行语义检索,找出相关的文本片段。这些片段连同原始问题一起提交给大模型,由大模型最终生成答案。

GraphRAG:知识图谱如何赋能深度洞察

然而,传统 RAG 依赖于语义搜索相关片段进行回答,这导致了它难以获得对整个数据集的全局洞察,而这正是 GraphRAG 旨在解决的关键问题之一。 想象一下,如果你给 RAG 一整本书,不是问某个具体细节,而是问这本书的主题思想是什么,传统 RAG 往往会遇到困难。

GraphRAG 是由微软开源的一项技术,其名称中的”Graph”揭示了它的核心——利用大语言模型的强大能力来构建一个反映整个数据集内在结构的知识图谱。例如,对于一家科技公司的内部文档,这个知识图谱可能包含诸如产品、研发项目、市场策略等实体,以及它们之间的复杂关系,比如”项目 A 研发了产品 X”,”策略 B 提升了产品 X 的销量”等等。这样的知识图谱不仅能描述每个实体的特征,更能揭示实体间的关联,甚至形成语义上的分层和分组。举个例子,将我(Axton)视为一个实体,了解我的特征(身高、体重等)是第一层;接着是我的社会关系;如果再进一步分组,比如”讲 AI 的光头 YouTuber”,就能更精确地定位到我,甚至回答”在讲 AI 的光头 YouTuber 当中,谁有两门很受欢迎的 AI 课程?”这样的复杂问题。

这些特性使得 GraphRAG 能够有效解决传统 RAG 的两大痛点:一是难以连接分散的信息,从而难以回答需要跨多个文本片段进行推理的问题;二是对于长文档的整体理解能力不足,无法提供对整个知识库的宏观洞察。因此,GraphRAG 可以胜任回答诸如”我们的 AI 芯片项目如何影响了我们在亚洲市场的表现?”这类跨文档的复杂问题,也能应对”过去五年我们公司的技术发展趋势是什么?”这类需要全局视野的问题。它的应用潜力巨大,无论是帮助企业制定战略决策,还是协助研究人员发现新的研究方向,都能提供前所未有的洞察力。这也是我今天花时间制作这期内容,并认为大家应该关注它的重要原因。微软的 GraphRAG 论文已经发布,并在 GitHub 上开源,目前已获得超过 13000 颗星(更新至 2025-05)。

实战演练:用 GraphRAG 分析《圣诞颂歌》

理论讲了不少,是时候动手实践了!我将使用 GraphRAG 分析狄更斯的《圣诞颂歌》,并对比 GPT-4o 和 GPT-4o Mini 的表现。 最初我没有急于测试 GraphRAG,主要是考虑到价格因素。使用像 GPT-4 这样的模型,单是索引一本 98 页的书,花费就可能高达 10 美元(更新至 2025-05)左右。但 OpenAI 恰到好处地发布了 GPT-4o Mini,这为我们经济地使用 GraphRAG 带来了新的曙光。

我的本地 Python 版本是 3.12,符合 GraphRAG 官方文档要求的 3.10 到 3.12 版本。安装过程非常直接,使用 pip install graphrag 即可。安装完成后,我创建了一个名为 RAGTest 的工作目录,并在其中建立了一个 Input 子目录,用于存放待处理的文档。根据微软官方示例,我从古腾堡计划网站下载了狄更斯的《圣诞颂歌》纯文本文件。这本书大约 98 页,文件大小为 180KB 左右,通过 OpenAI 的 Tokenizer 计算,大约有 4 万多个 Token(更新至 2025-05),体量适中。

接下来是配置工作空间。我切换到 RAGTest 目录的上一级,运行初始化命令 python -m graphrag.index --init --root ragtest。这条命令创建了 .env 环境配置文件、settings.yaml 参数文件,以及一些输出和提示词目录。关键的配置在于修改这两个文件:.env 文件中,我填入了我的 OpenAI API Key(从 OpenAI Platform 获取,现在已升级为 Project API Key,我为此创建了一个新的 Project Key 并赋予了所有权限)。而在 settings.yaml 文件中,我将默认的 GPT-4 Turbo 模型(这是当时最昂贵的模型之一)首先修改为 GPT-4o,以便进行第一轮测试。其他参数暂时保持默认。

完整视频请点击观看:

配置完成后,我便开始运行索引过程,命令是 python -m graphrag.index --root ragtest --verbose。在运行前,我特意检查了 OpenAI API 的花费上限设置,并确认了当前项目花费为零,方便后续精确计算成本。

成本与效果大比拼:GraphRAG 遇上 GPT-4o 与 GPT-4o Mini

激动人心的对比环节来了,我们将用数据说话,看看两款模型在 GraphRAG 任务中的实际花费和效果差异。 使用 GPT-4o 模型进行索引的过程相当快,大约两三分钟就完成了。查看 OpenAI 的账单,索引过程花费了 2.42 美元(更新至 2025-05)。随后,我使用了官方示例中的查询问题:”这个故事的主题是什么?” (What is the theme of the story?)。查询也很快返回了结果,这次查询花费了约 0.60 美元(更新至 2025-05)。因此,使用 GPT-4o 完成索引和一次查询的总花费约为 3.01 美元(更新至 2025-05)。这个价格确实不低,幸好我没有选择更昂贵的 GPT-4 Turbo。

接着,我着手测试 GPT-4o Mini。我再次修改了 settings.yaml 文件,将模型从 gpt-4o 更改为 gpt-4o-mini 并保存。为了避免数据干扰,我创建了一个新的工作目录 ragtestmini,并将之前配置好的 .env 和修改后的 settings.yaml 文件复制过去。然后,我重新运行了索引命令。这次索引速度更快,大约一分多钟就完成了。查看花费,索引过程仅花费了 0.03 美元(更新至 2025-05)!随后,我用同样的问题”这个故事的主题是什么?”进行查询,这次查询的成本约为 0.05 美元(更新至 2025-05)。这意味着,使用 GPT-4o Mini 模型,完成索引和一次查询的总花费大约是 0.08 美元(更新至 2025-05)。这与 GPT-4o 的 3 美元相比,成本降低了近 37 倍

为了评估两者输出质量的差异,我将两个模型生成的英文答案,都通过我之前在 Coze 平台上搭建的基于吴恩达老师反思翻译工作流的翻译助手转换成了中文。猛一看,GPT-4o Mini 的输出(例如,主题是转变与救赎、慷慨和同情)也相当不错。考虑到整本书只有 4 万多 Token,我决定让 Claude 模型来充当裁判。我向 Claude 提供了《圣诞颂歌》的全文,并要求它作为一位专攻狄更斯作品的英国文学专家,比较和评估两个模型关于小说主题的回答,并分别打分。我将 GPT-4o 的回答作为 Answer 1,GPT-4o Mini 的回答作为 Answer 2。Claude 给出的评分结果出人意料:Answer 1 (GPT-4o) 获得了 8 分,而 Answer 2 (GPT-4o Mini) 竟然获得了 9 分!这表明,GPT-4o Mini 不仅在价格上便宜了几十倍,在这次特定任务的特定评估中,其效果甚至略胜一筹。

全局性核心要点总结

通过这次实证对比,我们可以清晰地看到几个核心要点。首先,GraphRAG 作为一种新兴技术,通过构建知识图谱,确实能够提供超越传统 RAG 的深度全局洞察能力,尤其适用于理解复杂数据集的整体结构和内在联系。其次,GPT-4o Mini 模型的出现,极大地降低了运行这类先进 AI 应用的门槛,其性价比之高令人印象深刻,甚至比 GPT-3.5 Turbo 还要便宜 60% 以上(更新至 2025-05),性能却直逼顶尖模型。最后,实验结果(特别是 Claude 的评分)提示我们,在特定任务上,成本更低的模型有时也能取得媲美甚至超越昂贵模型的表现,这挑战了我们对模型能力与价格的传统认知。

独特深度洞见

这次实验最让我感到兴奋的,并不仅仅是成本的大幅降低,更在于它揭示了一种趋势:先进 AI 技术的民主化正在加速,而”好用”与”昂贵”之间的必然联系正在被打破。 GPT-4o Mini 的优异表现,尤其是在 GraphRAG 这种需要深度理解和构建复杂关联的任务中,证明了小型化、高效率模型在特定场景下的巨大潜力。这预示着未来,无论是企业知识库的构建与分析,还是个人研究者进行大规模文本探索,都将拥有更多经济可行的选择,从而真正释放知识图谱等技术的潜力,让更广泛的用户群体能够从中受益,而不再仅仅是大型机构的专属工具。

好了,今天的分享就到这里。我是 Axton,如果你喜欢我的视频和文章,请帮我点赞、评论、订阅我的频道,并打开小铃铛,我们下期再见!

掌握系统化思维,构建你的AI智能体

工具思维跨越到智能体思维,掌握系统化的方法论与AI智能体构建能力,构建可迁移的AI自动化技能,随时适应新需求!

7 阶实战体系,一步步带你从零基础到高阶自动化

◆ 立即节省2小时以上的重复劳动,效率提升10倍!

◆ 现在订阅,限时享受独家优惠,解锁你的AI竞争优势!



立即开启AI智能体进化之旅 →

Axton二维码

扫码关注获取更多资源

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部