「保姆级教程」从 Discord 机器人到 Zapier,谷歌 Gemini Pro API 用法大全!免费超强多模态震撼来袭 | 回到Axton

你好,我是 Axton。随着 AI 技术的飞速发展,多模态模型之间的竞争也日趋白热化。今天,我想和大家聊聊一个备受瞩目的选手:谷歌的 Gemini Pro API。在 2025 年这个时间点,它不仅是少数能与 OpenAI GPT 系列一较高下的模型,更重要的是,它开放了免费的 API (更新至 2025-05),让每个人都有机会接触并运用谷歌最前沿的 AI 技术。这篇文章将带你深入了解 Gemini Pro API 的方方面面,从基本设置到实际应用,希望能为你打开一扇通往更强大 AI 世界的大门。

谷歌 Gemini Pro API:为何值得你关注?

谷歌 Gemini Pro API 提供了一个由大厂背书、功能强大、易于上手且成本极低的 AI 解决方案,这使其成为开发者和 AI 爱好者不容忽视的选择。 它的出现,无疑为 AI 应用的开发和普及注入了新的活力。首先,Gemini Pro 作为谷歌的旗舰模型之一,其性能备受期待,被认为是能够挑战 GPT-4 的有力竞争者。其次,开放 API 意味着我们可以将其集成到自己的应用程序、网站甚至本地电脑中,实现各种定制化的 AI 功能。

更吸引人的一点是,目前 Gemini Pro 的 API 是完全免费的 (更新至 2025-05),即便未来开始收费,其价格预计也会比 GPT-4 更具竞争力。当然,免费也意味着我们的输入输出数据可能会被用于改进产品,这是我们需要了解的。但综合来看,这样一个集强大、易用、低成本于一身的 AI 工具,无疑值得我们投入时间去探索和学习。

初探 Gemini:官网与谷歌 AI Studio 体验

要开始使用 Gemini Pro,最直接的方式就是访问其开发者官网,并通过谷歌 AI Studio 进行初步体验。 官网上清晰地列出了 Gemini Pro 版本的价格信息——目前对所有人免费开放,但有每分钟 60 个查询的限制 (更新至 2025-05)。输入输出目前均免费,即便未来按需付费,价格也承诺比 GPT-4 便宜。

点击官网上的”Get API key in Google AI Studio”按钮,登录谷歌账户后,便会进入谷歌 AI Studio。这个平台类似于 OpenAI 的 Playground,是开发者测试和调试模型的主要场所。初次进入时,系统会询问你是想直接在 AI Studio 中尝试还是在自己的环境中部署。无论选择哪个,最终都会引导你进入 AI Studio。在这里,你无需 API Key 即可直接试用 Gemini Pro。

玩转谷歌 AI Studio 的三种提示模式

谷歌 AI Studio 提供了三种创建提示的方法来与 Gemini Pro 互动:自由形式提示 (Freeform prompt)、结构化提示 (Structured prompt) 和聊天提示 (Chat prompt)。

我首先尝试了自由形式提示。选择 Gemini Pro 模型(仅支持文本),我让它”讲一个笑话”,它很快就给出了回应。如果想处理图片,就需要切换到 Gemini Pro Vision 模型。这时,提示框旁会出现一个图片上传按钮。我上传了一张自己电脑里的图片——一个戴着眼镜的年轻人使用老式电脑,旁边有收音机和软盘——然后用中文提问:”告诉我你在图片中看到了什么?” Gemini Pro Vision 准确地识别出了这些元素,表现不错。不过,它目前还不能根据描述生成图片,所以多模态的玩耍空间还有待提升。

在 AI Studio 的右侧,可以调整模型参数,如温度 (Temperature)、TopP 等,这些参数会影响输出的创造性和随机性。需要注意的是,Gemini Pro Vision 的提示(包括图片)大小不能超过 4MB。

AI Studio 还有一个很实用的功能叫做 Test Input,允许我们设置变量并进行批量测试。例如,我尝试让它为我的两门课程”AI 自动化”和”AI 实战派”各写一句广告语。通过设置产品名称为变量,并赋予不同的值,然后一次性运行,就能方便地对比不同输入的输出结果。它为”AI 自动化”生成的广告语是”释放你的双手,腾出更多时间去做你真正想做的事情”,为”AI 实战派”生成的则是”让 AI 技术落地,助力企业腾飞”,效果都还不错。

获取你的专属 谷歌 Gemini Pro API Key

获取 Gemini Pro API Key 的过程非常简单,只需在谷歌 AI Studio 中点击几下即可完成。 在 AI Studio 界面的左侧菜单,有一个明显的”Get API key”选项。点击后,你可以选择在一个新的谷歌云项目 (Google Cloud Project) 中创建 API Key,或者在你已有的项目中创建。

我选择在一个新项目中创建,几乎是瞬间,API Key 就生成了。这就是一串你需要妥善保管的字符,后续在代码或应用中调用 API 时会用到。页面下方还会提供示例代码,方便你快速测试 API Key 是否有效。我创建的这个 Key 主要是为了演示,之后可以按需管理或删除。

进阶探索:通过 Vertex AI 使用 谷歌 Gemini Pro API

谷歌 Vertex AI 为我们提供了更强大的多模态处理能力,尤其是在视频内容理解方面,它比 AI Studio 更胜一筹。 Vertex AI Studio 是 Vertex AI 平台内专门用于体验和开发 AI 模型的部分。在这里,我们不仅可以输入文本提示,还可以上传图片和视频。视频上传支持最大 7MB、最长两分钟的内容。

为了测试其视频分析能力,我使用了平台提供的示例。第一个例子是一个 18 秒的冲浪视频,我让它为这个视频生成一则旅游广告。它首先输出了英文广告,描述了海滩、水浪和友好的社区。然后我将提示改为中文,它居然识别出地点像是巴厘岛,并且生成的中文广告文案感觉比英文版还要生动一些,例如”你想体验一下在海滩上飞驰的感觉吗?”

接着,我尝试了另一个锻炼身体的问答示例。视频内容是一个人正在做某个练习动作。我先用英文提问视频中的人在做什么运动,它回答是”三头肌屈臂撑 (Triceps Dips)”,并准确描述了动作要领:坐在长凳上,双手放在边缘,脚踩地面,弯曲肘部使身体下降。这个识别相当准确。我又尝试用中文提问,并让它描述动作特点和锻炼目的。它回答说视频中的人在做”臂屈伸”,描述了动作过程,但提到”胸部几乎碰到长凳”,这显然是不对的,因为那个动作主要是锻炼背部和手臂后侧。看来在特定场景下,英文提示的效果可能更佳。

值得注意的是,在 Vertex AI Studio 中使用 Pro Vision 模型时,即使只给文字提示,它也能给出响应,这与在谷歌 AI Studio 中的行为有所不同——在后者,如果使用 Pro Vision 模型却只给文字,它会建议你切换到纯文本模型。

完整视频请点击观看:

自动化利器:通过 Zapier 集成 Vertex AI (谷歌 Gemini Pro API 前瞻)

拥有了 API,我们就可以借助 Zapier 这样的自动化工具,将 Gemini Pro 的能力融入到各种工作流中,尽管目前 Zapier 中的 Vertex AI 模块可能尚未完全更新至 Gemini Pro。 Zapier 是一个强大的在线自动化工具,可以将不同的应用程序和服务连接起来,创建自动化的工作流程 (Zaps)。

我尝试配置了一个处理客户邮件的自动化流程。当收到新邮件时,首先由谷歌 Vertex AI 分析邮件内容的情感是正面还是负面。如果判断为负面,则由另一个 Vertex AI 任务自动撰写一封道歉和安抚的回复邮件。

具体配置时,我选择 Gmail 作为触发器,事件是”新邮件”。核心在于 Vertex AI 的配置。第一个 Vertex AI 步骤选择了”分析文本情感”事件,将邮件内容(比如”在你们家买的西瓜不好吃”)作为输入。连接谷歌云账户后,需要配置项目 ID 和模型区域。第二个 Vertex AI 步骤则是在上一步判断为负面情感后触发,选择”写一封邮件”事件,提示它”用中文回复一封用户发来的抱怨邮件,邮件内容是’你们家买的西瓜不好吃'”,并设置语气等参数。测试下来,它生成了诸如”您好,我收到关于西瓜不好吃的投诉邮件,对此深感抱歉……”这样的回复。最后,这个生成的邮件内容可以通过 Zapier 的 SMTP 服务自动发送出去。

为了验证,我给自己发了一封测试邮件,内容是”你们的水果都不甜,在你们店里买了甜瓜甜橙,结果一点都不甜。”很快,我就收到了由 Vertex AI 自动生成的道歉邮件。需要注意的是,我特地向 Zapier 客服确认过,截至我测试时 (更新至 2025-05),Zapier 中的谷歌 Vertex AI 模块主要还是基于较早的 PaLM 2 模型。但他们表示会持续集成新技术,所以这只是时间问题。提前熟悉 Zapier 与 Vertex AI 的集成流程,待 Gemini Pro 正式接入后,我们就能无缝切换,立即上手。

实战演练:用 谷歌 Gemini Pro API 构建 Discord 聊天机器人

将 Gemini Pro API 应用于实际场景,比如创建一个 Discord 聊天机器人,能让我们更直观地感受其威力。 我选择了一个开源的、集成了 Gemini API 的 Discord 机器人项目 (Discord Bot Gemini),它使用 JavaScript 编写。尽管我对 JavaScript 不太熟悉,但在 ChatGPT 的帮助下,进行一些修改和部署还是可行的——这正是 AI 时代的魅力所在。

我没有在本地或 Docker 中部署,而是选择了 Replit 这个在线集成开发环境。谷歌的 Bard 已经与 Replit 紧密集成,这使得 Replit 成为一个值得关注的平台。在 Replit 上部署非常便捷,它会自动处理依赖包安装等繁琐事务。我从 GitHub 导入了该开源项目的 URL,Replit 成功拉取代码后,我需要配置环境变量。与传统的 `.env` 文件不同,Replit 使用一种名为 `Secrets` 的方式来管理敏感信息,如 Discord 机器人的 Token 和 Gemini API Key。我将这些信息逐一添加到 `Secrets` 中,并根据项目要求配置了允许访问的用户 ID 和频道 ID。

由于项目原本使用 `.env` 文件,而 Replit 使用 `Secrets`,我需要对代码进行微小的调整,主要是修改读取环境变量的方式。调整完毕后,点击运行,我的 Discord 机器人”GeminiBot”就成功上线了。在我的 Discord 服务器中,我向它提问:”你是 Gemini Pro 还是文心一言?”它回答:”我既不是 Gemini Pro 也不是文心一言,我是谷歌开发的大型语言模型。” 这表明它已经成功调用了 Gemini API。虽然目前这个版本的机器人还不支持上下文记忆,但整个过程清晰地展示了如何调用 Gemini API 并将其集成到应用中。

核心要点总结

通过这次全面的探索,我深刻体会到 谷歌 Gemini Pro API 为我们打开了通往强大 AI 能力的新大门。首先,它的免费开放政策 (更新至 2025-05) 和未来可期的低成本,极大地降低了开发者和爱好者使用顶尖 AI 模型的门槛。其次,无论是通过直观的谷歌 AI Studio 进行快速原型测试,还是借助功能更全面的 Vertex AI 进行深度多模态开发,谷歌都提供了相对完善的工具链。更重要的是,开放的 API 意味着无限的可能性,我们可以将其集成到各种自动化流程(如 Zapier 所示的潜力)或自定义应用(如 Discord 机器人)中,真正让 AI 为我们的工作和生活赋能。尽管目前在某些细节(如多模态交互的流畅度、部分第三方工具的集成进度)上仍有提升空间,但其展现出的潜力已足够令人兴奋。

独特深度洞见

我认为,谷歌 Gemini Pro API 的推出,不仅仅是技术上的一次迭代,更是AI 普惠化进程中的一个重要里程碑。它预示着未来 AI 能力将不再仅仅掌握在少数大型科技公司手中,而是会像云计算、开源软件一样,成为一种基础性的、可被广泛获取和利用的资源。对于开发者而言,这意味着需要更快地学习和适应 API 调用,将 AI 思维融入产品设计;对于普通用户而言,则意味着将能享受到更多由强大 AI 驱动的、更智能、更个性化的应用和服务。这种转变,将深刻影响未来的技术创新和商业模式。

我希望今天的分享能帮助你更好地了解和使用 谷歌 Gemini Pro API。如果你对 AI 技术和应用感兴趣,不妨现在就开始你的探索之旅吧!

掌握系统化思维,构建你的AI智能体

工具思维跨越到智能体思维,掌握系统化的方法论与AI智能体构建能力,构建可迁移的AI自动化技能,随时适应新需求!

7 阶实战体系,一步步带你从零基础到高阶自动化

◆ 立即节省2小时以上的重复劳动,效率提升10倍!

◆ 现在订阅,限时享受独家优惠,解锁你的AI竞争优势!



立即开启AI智能体进化之旅 →

Axton二维码

扫码关注获取更多资源

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注