Google I/O 2025 有哪些值得关注的人工智能新技术?

全新 AI 模型与产品发布

Gemini 2.5 模型升级: Google 在 I/O 2025 大会上重点推出了 Gemini 2.5——这一新版多模态大模型在性能和功能上全面提升。Gemini 2.5 包含 Pro(高性能版本)和 Flash(高效率版本)两类模型,自今年3月推出以来已在学术基准上取得领先,并登顶 WebDev Arena 和 LMArena 等权威排行榜。在 I/O 发布会上,Google 宣布 Gemini 2.5 Pro 引入了全新的 “Deep Think” 模式,可在处理高复杂度的数学和编程问题时进行强化推理——模型会在回答前并行考虑多种假设,从而显著提升复杂推理题的准确性。内部测试表明,开启 Deep Think 后的 Gemini 2.5 Pro 在 2025 年美国数学奥赛(USAMO)等顶尖数学基准上取得了令人瞩目的高分,并在 LiveCodeBench 等编程挑战中刷新纪录。此外,Gemini 2.5 模型全面增强了多模态处理能力,具备原生音频输出(文本转语音)的新特性,能够以自然的语调和多说话人风格朗读回答。在上下文长度上,Gemini 2.5 支持超长的输入上下文窗口,有实验显示其上下文长度可达百万级别——远超 Anthropic Claude 的10万上下文长度,也领先于目前OpenAI GPT-4对外提供的上下文规模。

Imagen 4 与 Veo 3: 在生成式 AI 方面,Google 发布了新版的图像与视频生成模型。第四代图像生成模型 Imagen 4 提升了图生文本准确性,能够更好地生成包含文字的图像,并支持导出多种长宽比格式(如正方形、长横幅等)。同时,下一代视频生成模型 Veo 3 支持“声画同生成”,可根据提示同时生成短视频画面及对应音效。Veo 2 版本也获得更新,增加了摄像机运动控制、对象移除等编辑工具。这些升级使得用户可以更自由地创作多媒体内容。此外,Google 针对影视创作推出了一款全新应用 Flow,利用 Gemini、Imagen 和 Veo 提供的生成能力,帮助用户从简单提示词生成具有电影感的8秒短片,并可将短片情节智能扩展为更长场景。这一应用的推出,展示了生成式 AI 在视频创意和电影制作领域的实用潜力。

其他新品亮点: Google 将此前的实验性全息视讯项目 Project Starline 正式升级为 Google Beam。Beam 使用光场显示和多摄像头捕捉技术,可在通话中实时生成对方的3D逼真形象,实现栩栩如生的临场视频聊天体验。首批 Beam 商用设备将由 HP 提供硬件支持,并将部署在德勤、Duolingo、Salesforce 等企业办公室供试用。这项技术虽主要面向沉浸式通讯,但其背后也运用了机器学习对图像深度和光场的处理。另一方面,Google 宣布推出全新的 “AI Ultra” 订阅计划,月费 $250 美元。订阅 AI Ultra 的用户可获得最高级别的 AI 模型(暗示尚未公开的更大规模 Gemini Ultra 模型)访问权限,以及在各类应用中更高的使用额度。值得注意的是,OpenAI 此前面向企业的 ChatGPT 计划约为 $200/月,Anthropic 的 Claude Max 订阅亦为 $200/月。Google 此次订阅定价虽更高,但定位于提供其顶尖模型和更丰富的整合服务,表明Google试图在高端企业/开发者市场上与OpenAI和Anthropic竞争。

Gemini 赋能应用与 Google 产品集成

Google在搜索等核心产品中深度融合了 Gemini 模型的能力,为用户带来更智能的体验。其中搜索引擎迎来了25年来最大幅度的升级——推出了全新的 AI Mode 搜索模式(如上图左),从实验室产品转正为搜索页面中的独立选项卡,对美国所有用户开放。启用 AI Mode 后,用户可以像与聊天机器人对话那样输入更长、更复杂的问题(查询长度是传统搜索的2-3倍),Gemini 模型会以对话形式给出综合答案并支持连续的追问。例如,用户可以提出”帮我调研某城市周边适合孩子参加的夏令营”,AI Mode 即会生成一份引用丰富来源的详细报告作为回答(如上图右)。Google CEO 桑达尔·皮查伊强调,新版 Gemini 模型让AI Mode返回的答案具备与传统搜索相当的质量与准确度,同时显著提升响应速度,是业界响应最快的 AI 搜索体验。据报道,自去年推出生成式搜索摘要(AI Overviews)以来,已有15亿用户使用,新模式下用户满意度提升,搜索次数也在增长。Google 称这是过去十年中搜索领域最成功的功能之一。如今借助更强大的模型和全新交互,Google试图以“对话式搜索体验”吸引因ChatGPT等转投他端的用户回流。

搜索新功能: 在 AI Mode 基础上,Google 正在测试 “深度搜索(Deep Search)” 功能,以满足更长期复杂的研究型查询需求。Deep Search 采用类似”查询分解(query fan-out)”的技术,将一个复杂问题拆解为多方面并行搜索,几分钟内产出附带来源引用的专家级报告。这被视为Google对标 ChatGPT 等推出的”深入研究模式”的举措,有望大幅节省用户自行查找和综述资料的时间。同时,Google将 “Search Live” 实时搜索功能引入AI Mode。该功能源自去年的 Project Astra 原型,允许用户通过手机摄像头对现实场景或屏幕内容进行提问。在实验模式下,搜索栏会出现一个”Live”直播图标,用户点击后即可拍摄身边物体或截取手机屏幕并发问,Gemini Live 会即时理解视觉内容并给出讲解或建议。例如,现场演示中,用户用摄像头对准手工桥梁模型,AI 随即提供了关于如何制作棒冰棍桥梁的步骤提示和链接。这种将 Lens 图像识别与对话AI结合的实时搜索,标志着 Google 搜索正从纯信息检索转向“随时提问万物”的智能助手。

智能代理与购物: 更具突破性的是,Google 正在让搜索引擎具备代理(agent)能力,以帮助用户执行特定任务。例如即将上线的 购票助手 模式基于 Project Mariner 技术,让 AI 代理像真人一样浏览网站并完成购票操作。当用户在 AI Mode 中提出”帮我找两张本周六红人队比赛的经济实惠的下层座位票”时,AI 会自动访问票务网站,实时筛选成百上千的选项并考虑价格。代理甚至能自动填写表单信息,最后只需用户点击确认购买即可。这相当于让AI充当用户的网络助手,完成以往需手动多步操作的任务。由于这类代理涉及高风险事务,Google 将其作为实验功能在未来数月内通过 Labs 小范围测试。除了买票,Google 还把 Gemini 能力用于提升购物搜索体验。新版 Shopping 搜索集成了 AI Mode 的个性化推荐,强化了 虚拟试穿 功能(允许用户上传全身照由AI展示衣物上身效果)。更引人注目的是新增的 AI 自动比价和下单 功能:用户可让AI持续追踪某商品价格,当价格降到理想区间时,AI 会通过 Google Pay 自动代表用户下单购买(会征询用户确认)。这一切展现了AI从信息提供向实际行动执行的延伸,使搜索引擎逐步具备”帮你做事”的能力。

Google Workspace 与安卓生态: Google 同时将 Gemini AI 深度融入 Workspace 办公套件和其他应用,增强个性化和生产力。Gmail 即将推出“个性化智能回复”功能:借助 Gemini 模型读取用户过往邮件和云端文档(需用户授权),在回复朋友旅行咨询等场景时,AI 能自动检索用户过去的行程邮件、Google Docs 行程表等个人上下文信息来生成贴切的建议回复。回复将匹配用户一贯的语气用词,读起来”就像用户自己写的一样”。该功能计划今年晚些时候向订阅用户开放。可以想见,未来这种跨应用的个人语境还将用于改进搜索和聊天结果,让AI更懂用户当前所需。在视频会议方面,Google Meet 宣布推出实时语音翻译转录功能。利用新模型的音频生成能力,Meet 可将一方的讲话翻译成另一语言并用对方相似的声音和口型播放出来,实现跨语言视频通话的逼真交流(目前英语和西班牙语Beta测试中,并计划拓展更多语言)。此外,Google 将 Gemini 助手嵌入 Chrome 浏览器。从5月21日起,订阅了 Google AI Pro或Ultra的用户在桌面Chrome中会看到一个 Gemini 按钮。点击后,用户在浏览网页时可随时召唤 AI 助手,请其总结当前页面内容、解释代码片段,或执行其他网页相关操作。这类似于微软将GPT-4集成Edge浏览器的”Copilot”,但由Google自主的Gemini驱动。移动端方面,Google I/O 公布Gemini Live功能已免费向所有Android用户开放,并开始向iOS用户推广。这意味着不用订阅付费,手机用户即可使用摄像头+屏幕共享的AI助手功能,让AI读取你手机屏幕或镜头所见并提供帮助。随着服务端强大的Gemini模型支撑,Android设备也能获得类似”端侧AI助理”的体验。

Gemini 应用与个性助手: Google 将原先的 Bard 聊天助手升级为 Gemini app,提供更个人化、主动性的 AI 助理体验。在 I/O 大会上,Google 宣布 Gemini app 增强了“Deep Research”深度研究“Canvas”画布等模式。Deep Research 模式允许用户上传自己的文件,或连接个人 Google 云端硬盘与Gmail账户,让 Gemini 利用其中的信息来生成定制的分析报告或研究文档。Canvas 模式则集成了 Gemini 的多模态生成能力,用户可以通过简单对话,让 AI 动态生成信息图表、测验题,甚至播客等富媒体内容。例如,通过 Canvas,用户只需聊天描述想要的可视化,Gemini 就能生成互动式图表或图形,并支持多语言配音讲解。Canvas 还支持所谓的 “vibe coding”,即用户用自然语言与 Gemini 讨论应用需求,AI 即可生成可运行的前端代码或应用,实现“对话生成应用”。另外,广受欢迎的 Gemini Live 功能(通过摄像头和屏幕共享让AI”看见”用户所见)如今对所有用户免费,并将很快与用户常用的 Google 应用打通,实现更顺畅的助手体验。

一个重磅更新是 Gemini app 即将引入 “Agent Mode”智能代理模式。启用后,用户可以直接交给 AI 一个需要完成的任务,让 AI 代理自动替用户执行。这类似近期流行的 AutoGPT 等自治代理思路。皮查伊在会上举例,两位用户打算在奥斯汀合租公寓,他们可以让 Agent Mode 代理在房源网站上按条件寻找符合要求的出租信息。AI 代理会自行访问 Zillow 等房产网站,应用用户指定的筛选器,并调用 Project Mariner 工具与网页交互,比如翻页或填写预约看房表单,最终把合适的房源和预约安排反馈给用户。

值得注意的是,Project Mariner 作为底层支持经过强化,可同时监督多达10项并行任务来高效完成复杂流程,并引入了“示范并重复(Teach and Repeat)”的新机制:用户手把手操作示范一次任务流程,代理即可学习并在未来类似任务中自动重复执行。这意味着用户能以”教”的方式让 AI 学习新技能。Agent Mode 将率先向 Gemini 付费用户提供实验版体验。通过 Gemini app 这套独立应用,Google 正在打造一个集聊天、工具、视野、代理于一体的个人 AI 助手,覆盖从内容创作、信息获取到自动化任务执行的各类场景。

AI 基础设施与硬件支持

Google 在模型进步背后强调了强大的AI基础设施作为支撑。在 I/O 开幕主题演讲中,皮查伊透露了公司用于训练和部署 Gemini 模型的第七代 TPU 超级计算集群。第七代 Tensor Processing Unit(TPU v7) 被赋予代号”Ironwood“,它是 Google 首个专为大模型推理和”思考”型工作负载设计的 TPU。Ironwood 单机性能相比前代提升了10倍,每个超级计算机机柜(Pod)能够提供高达 42.5 EFLOPs(百亿亿次浮点运算)的算力。如此巨大的算力提升,使 Google 可以在保持成本可控的情况下训练更复杂的模型并加速在线推理响应。皮查伊指出,强大的自研硬件和云基础设施让Google能够持续降低模型使用成本、提升响应速度,以至”不仅在成本-性能曲线(帕累托前沿)上领先业界,还将整条曲线推向了新的高度”。例如,通过大规模并行优化,Google 将 Gemini 模型的延迟控制在极低水平,实现了前文提到的业内最快搜索AI响应。随着 AI 服务请求量的爆炸式增长(Google 披露其产品与API每月已处理 480 万亿 tokens,对比一年前增长了50倍),高效的算力支撑变得尤为关键。Google 此次高调公布 TPU v7 的细节,表明其在 AI 基础设施上有信心领先于竞争对手(如 OpenAI 主要依赖NVidia GPU的超级计算机等),并以此保障在大模型时代的性能与成本优势。

除了云端算力,Google 也着眼于边缘端和垂直领域的 AI 硬件与模型支持。在开发者更新中,Google介绍了 “Google AI Edge” 计划,旨在将AI能力扩展到本地设备和特定行业。例如,Google发布了 MedGemmaSignGemma 等开源模型:其中 MedGemma 是针对医学文本和医学影像的多模态开源模型,便于开发者定制医疗AI应用(如分析医疗影像);SignGemma 则是即将推出的模型,可将手语翻译为文字(目前对美式手语ASL到英文效果最佳),以帮助开发者为聋哑人士创建沟通辅助应用。这些轻量模型可以在专用硬件或边缘设备上运行,体现了 Google 在通用大模型之外,对领域专用AI端侧AI的投入。虽然 I/O 发布会上未见新的移动端AI芯片发布,但通过上述开放模型和 Android 系统优化,Google 正在铺设让AI更贴近用户设备的道路。未来,高端Pixel设备内置的TPU移动加速器与这些精简模型结合,或许可以在手机上直接运行部分生成式AI功能,实现更多实时、私密的AI体验。

面向开发者的 AI 工具与平台

今年 I/O 大会推出了一系列面向开发者的 AI 新工具和平台改进,帮助开发者更轻松地构建AI应用:

  • Google AI Studio 升级: Google AI Studio 是官方提供的一站式 AI 应用开发平台。在此次更新中,AI Studio 集成了最新的 Gemini 2.5 模型,并新增对 Imagen、Veo 等生成式媒体模型的支持,让开发者可以在统一环境下调用图像、视频生成能力。AI Studio 内置的代码编辑器也升级融合了 Gemini 2.5 Pro,大幅提升代码自动完成和生成能力。结合新版 生成式AI SDK,开发者甚至可以从一句文本、一个图像或视频提示出发,瞬间生成完整的Web应用。Google 提供了诸多 Starter Apps 模板供参考,让开发者只需简单修改或给出提示,就能快速产出原型。
  • Gemini API 新增能力: Google I/O 发布了 Gemini API 的多项重要更新,使之成为功能丰富的AI后端接口。首先,引入异步函数调用(Asynchronous Function Calling) 机制,允许模型调用外部工具或执行较长时间的函数时不阻塞主对话流程。这意味着开发者的应用中,AI 可以在后台执行爬取网页、长算例计算等任务,同时前台仍可与用户继续互动。其次,开放了 “计算机使用(Computer Use)API” 给可信测试者。这是先前Project Mariner代理能力的封装接口,开发者可借此让AI代理在得到用户授权时自动浏览网页、打开应用等,实现类似自动化RPA的功能。再次,新增 URL Context 工具,模型可通过提供URL直接获取网页全文作为上下文,这一实验特性可单独使用或与搜索工具结合,用于实时获取网络信息。最后,Google 宣布 Gemini API 和 SDK 将支持 Anthropic 提出的 “模型上下文协议(Model Context Protocol, MCP)”。MCP 是一种开放标准,使不同AI代理可以无缝对接各种开源工具和服务。Google 采用这一标准,意味着开发者可以方便地将开源插件、工具接入Gemini,使其能力进一步拓展。这也体现了Google拥抱开放生态,与Anthropic等合作制定AI工具互通规范的姿态。
  • 代码开发助手: 为了提升开发者效率,Google 发布和升级了多款 AI 编程助手工具。Colab AI 将迎来”更具代理性”的新版本——开发者在 Colab 笔记本中只需描述想实现的目标,AI 代理就会自动在代码单元中采取行动:如补全代码、纠错调优,甚至根据需要安装库、调整环境,帮助用户快速实现意图。这使得 Colab 从一个被动的代码运行环境转变为主动协助编程的智能IDE。与此同时,基于 Gemini 模型的 “Code Assist” 编码助手正式向所有开发者免费开放。Code Assist 提供两个版本:个人版(浏览器扩展)可在开发者本地IDE中即时提供代码补全、重构建议;企业版则可集成在企业的代码库和DevOps流程中。更新后,Gemini 2.5 成为了 Code Assist 的核心引擎,其高级订阅还将支持长达 200 万 token 的上下文窗口(通过与 Vertex AI 企业版结合),方便处理超大型代码库的分析。Google 还推出了 Firebase Studio 作为云端AI开发工作空间,支持从导入 Figma 设计稿到一键生成全栈应用。它能智能识别何时需要后端服务并自动在Firebase中配置云函数,让前后端构建融为一体,大幅降低开发AI驱动应用的门槛。

Jules 自治编程代理: 备受关注的 Google Labs 项目 “Jules”——自主AI编码代理也在 I/O 上宣布进入公开测试版。Jules 不同于一般的代码补全助手(如 GitHub Copilot),而是一个可以异步执行编码任务的自主Agent。开发者将 Jules 连接到自己的代码仓库后,它会克隆整个代码库到隔离的云虚拟机中,阅读并理解项目全貌。随后开发者可以指派任务给 Jules,比如”为当前项目添加单元测试”或”修复某模块的已知Bug”。Jules 会自主计划、在后台执行修改,完成后提供详细的变更方案、理由解释以及代码差异(diff)给开发者审查。整个过程中开发者无需盯着,它在云端自动完成,支持同时处理多个任务。

值得强调的是,Jules 注重让开发者始终掌控:在修改前会呈现计划,得到许可后才动手修改代码;完成后通过提交 Pull Request 的形式供开发者查看合并。Jules 默认不将私有代码用于训练,数据严格隔离云端,保障安全。在 Beta 阶段,Jules 向全球开发者免费开放试用(有使用额度限制)。这一工具标志着“AI 代理参与软件开发”正从概念走向实用,有望显著加速开发迭代。Google 也借此在与微软(GitHub Copilot X 等)的竞赛中展示了领先一步的研发——真正让AI承担编码任务而不仅是建议。

生成 UI 与多模态工具: UI/UX 设计领域也迎来AI赋能的新工具。Google 在 I/O 推出了代号 “Stitch” 的实验项目。Stitch 利用生成式AI根据自然语言描述或草图图像,自动产出高保真的用户界面设计稿以及对应的前端代码。设计师只需描述”想要一个带侧边栏导航和圆角卡片风格的移动应用界面”,Stitch 会提案多种设计稿供选择,并支持在对话中细调样式主题。最终生成的UI代码可以导出为 HTML/CSS 或直接推送到 Figma 继续人工完善。Stitch 的出现,使得产品经理或设计师无需精通前端技术,也能通过对话生成界面雏形,为应用开发争取宝贵时间。这类工具与前述的 Canvas、Firebase Studio 一起,勾勒出“用AI快速从想法到应用”的新开发范式。

综上,Google 正通过丰富的 API、SDK 和工具链,将其最先进的 AI 模型开放给开发者,同时提供从代码到设计的全流程智能辅助。这既巩固了Google在AI开发平台方面的生态,又与OpenAI、微软等在开发者社区的影响力竞争中占据优势。

Google vs OpenAI/Anthropic:功能与领先性对比

今年的 Google I/O 处处透出与 OpenAI、Anthropic 等竞品争锋的意味。无论在模型性能、产品功能还是生态整合上,Google 都展示了自身优势,并直接或间接地回应了竞品的挑战:

  • 模型性能与规模: Google DeepMind 团队宣称,Gemini 2.5 已在众多评测中达到业界最先进水平。官方数据显示,Gemini 2.5 Pro 在编程、数学、跨模态推理等任务上表现卓越,已横扫 LMArena 基准测试各类别的第一名。对比之下,OpenAI 的 GPT-4 虽然在某些数学推理基准上略胜一筹(例如在高难度数学问答中 GPT-4 得分约20.3%,Gemini 2.5 为17.8%),但 Gemini 已非常接近甚至在部分领域超越 GPT-4。例如,在代码生成挑战 LiveCodeBench v5 上,Gemini 2.5 单次运行通过率达75.6%,显著优于已公开的GPT模型成绩;在常识问答和多语言测试上,Gemini 也取得略高于 GPT-4 的准确率。Anthropic 的 Claude 近年来以长上下文和稳健对话见长,但在综合能力上新版 Claude 3.7 在多项评测中均未及 Gemini 2.5。更重要的是,Google 强调其成本效率优势:Gemini 2.5 Pro API 推理价格约为 $2.50 / 百万输入tokens、$15 / 百万输出tokens。相较之下,OpenAI GPT-4 32k 模型输入高达 $10 / 百万、输出 $40 / 百万;Anthropic Claude 100k 的价位则约 $2 / 百万输入、$8 / 百万输出。这意味着在相近甚至更强性能下,Google 的单位算力输出更具性价比。再考虑模型规模,虽然 Google 尚未公开 Gemini 模型的参数量,但其持续的 Elo 分数提升(自首代 Gemini Pro 提升了300多分)和对超长上下文的探索(1M token 实验)都暗示着Google在模型”大”和”强”上正全力追赶甚至试图赶超 GPT-4。
  • 多模态与功能扩展: OpenAI 的 ChatGPT 在去年添加了图像识别和语音对话功能(GPT-4 Vision 和 Whisper 语音)并支持了插件扩展,但 Google 的 Gemini 系列在多模态覆盖和工具使用上展现出更全面的布局。Gemini 2.5 原生支持文本、代码、图像、音频等多模态。例如,Gemini Live 可以处理用户摄像头拍摄的实时图像内容,这是 ChatGPT 目前不具备的能力(ChatGPT 的视觉输入仅限于上传静态图片且无实时交互)。在输出上,Gemini 提供情感化、可定制的语音回复——而 ChatGPT 虽有TTS语音阅读(在移动端应用中集成),但声线可控性和多角色支持方面尚不如Google的”原生音频输出”细致。Anthropic Claude 目前主要侧重纯文本对话,没有图像输入或语音生成。工具使用方面,OpenAI 通过插件机制让 ChatGPT 可调用一些外部服务,但那需要繁杂的插件生态支持。Google 则直接赋予 Gemini API 浏览网页、执行代码、检索 URL 内容等能力,相当于内置了一般插件的核心功能。这使得开发者和高级用户不必等待第三方插件,就能让AI联网获取最新信息、执行复杂操作。在智能代理上,Google 的 Project Mariner + Agent Mode 展示了可以自动执行多步骤任务的成熟雏形;相比之下,OpenAI 虽有一些类似Auto-GPT的社区实验,但并未有官方产品级方案发布。Anthropic 则提出了MCP协议来规范代理接入,这点已被Google采纳推动。总体而言,Google在多模态支持和代理式工具扩展上布局更积极、全面,试图抢占”AI 能做的事情更多”的领先位置。
  • 产品生态整合: Google 拥有庞大的产品线和平台用户群,这赋予其AI战略一个重要优势——原生集成。此次 I/O 我们看到,Google 将 Gemini 无缝嵌入搜索引擎、Chrome 浏览器、Gmail、Google Meet、Android 等数十亿用户规模的核心产品中。这种深度整合是 OpenAI 和 Anthropic 所无法直接匹敌的。ChatGPT 目前主要作为独立应用(或API)存在,虽与微软必应、Office 365 等进行了集成(通过Microsoft Copilot),但那些属于微软产品生态的功劳,而非OpenAI自有。Anthropic Claude 则更多通过合作接入Slack、Quora等平台,影响面相对有限。Google 则凭借自家完整的产品矩阵,让 Gemini 的能力触手可及:用户在熟悉的 Google 搜索框里就能体验到对话式AI,在Gmail里直接得到智能回复,在Android手机中长按电源键可能就唤出懂得看屏幕的助手。这种无缝用户体验有望成为Google的杀手锏。举例来说,Google的新AI搜索模式作为浏览器中的一项功能,对用户而言转变成本更低;相较之下,许多普通用户对于去单独打开ChatGPT网页提问的习惯还未养成。再如,Google 提出利用用户 个人数据做上下文 来提供个性化答案(如根据日历和邮件定制行程建议),这也是OpenAI出于隐私和技术限制暂未涉足的领域。虽然这也引发对用户隐私和信息茧房的顾虑,但在用户许可和透明控制下,这种个性化将是Google独有的卖点,因为 OpenAI/Claude 并不直接掌握用户邮件、日历、云盘等生态数据。

在交互设计上,Google 和 OpenAI/Anthropic 的产品思路也有所差异。Google 强调融合AI于现有工作流程,而非让用户另学一种用法。例如 Sidekick/助手会主动给出下一步提示(如在Docs侧栏根据内容提供建议),搜索结果页直接展示AI概括并附追问按钮——这些设计都是为了降低用户不会”提示工程”(prompt)的门槛。

OpenAI 的ChatGPT 则多少假定用户会自己琢磨提问技巧。Anthropic Claude 以”更善于对齐人类意图”著称,但在具体交互创新上此次I/O并无响应。Google 还在响应速度上建立了优势,宣称 Search AI Mode 是响应最快的AI搜索体验。一些第三方对比也印证了这一点:TechRadar 的编辑实际体验后指出新版 AI Mode极大改变了使用搜索的方式,”这可能是我们所熟知的搜索的终结(开启新范式)”。ChatGPT 则常被诟病有时响应较慢且有使用频率限制。Claude 2 在速度上表现尚可但也有高负载时延迟升高的问题。可以预见,在高并发、大流量场景下,Google 凭借优化的模型推理集群(TPU v7)会在响应延迟和服务稳定性上保持领先。

总结来看,Google 在 I/O 2025 上展示的 AI 版图,既是对 OpenAI/Anthropic 现有优势的迎头赶上,也是发挥自身长处(产品生态、基础设施)的强力反击。Google Gemini 模型的全面升级和多样化应用,表明 Google 在通用 AI 模型的竞争中已重回赛道,并在代码生成、实时多模态等方面取得局部领先。更重要的是,Google 正将 AI 融入搜索、办公、移动等每个角落,打造一个无处不在的AI层。这将使其服务对用户更具粘性和吸引力,有望在与 ChatGPT、Claude 的较量中赢得优势。当然,竞争尚未结束:OpenAI 可能推出 GPT-5 或增强版多模态系统,Anthropic 也在研发更强大的Claude升级版。但可以确定的是,Google 已不再是此前被动追赶的姿态,而是凭借 Gemini 2.5 及其生态整合,在多个方面实现了并跑甚至领跑。正如皮查伊所言,这是 AI 竞赛中”从研究到现实”的关键时刻;而Google选择以全面的AI战略迎战,预示着行业将进入一个百花齐放、你追我赶的新阶段

掌握系统化思维,构建你的AI智能体

工具思维跨越到智能体思维,掌握系统化的方法论与AI智能体构建能力,构建可迁移的AI自动化技能,随时适应新需求!

7 阶实战体系,一步步带你从零基础到高阶自动化

◆ 立即节省2小时以上的重复劳动,效率提升10倍!

◆ 现在订阅,限时享受独家优惠,解锁你的AI竞争优势!



立即开启AI智能体进化之旅 →

Axton二维码

扫码关注获取更多资源

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部