在AI领域的最新突破中,OpenAI发布了一套全新的代理构建工具,彻底改变了开发者创建智能AI代理的方式。这些工具包括Responses API、内置工具集和开源Agents SDK,共同构成了一个强大的生态系统,使开发者能够构建能够自主完成复杂任务的AI系统。
OpenAI的新型代理构建工具套件代表了AI开发领域的重大飞跃,它将过去需要复杂编程和大量定制化工作的代理开发过程简化为几个API调用,同时提供了前所未有的功能集成和工作流程管理能力。这一技术进步不仅降低了开发门槛,还为企业级应用提供了可靠的自动化解决方案。
随着这些工具的推出,我们正在见证AI代理从实验性概念向实用化工具的转变,这将为各行各业带来全新的自动化可能性。让我们深入探索这些创新工具如何改变AI开发的格局。
目录
Responses API如何转变代理开发?
Responses API的出现解决了开发者在构建AI代理时面临的最大挑战之一:如何将强大的语言模型能力与实用工具无缝集成?这个问题困扰着许多开发者,导致他们不得不花费大量时间在提示词工程和自定义集成上。
Responses API通过将Chat Completions API的简洁性与Assistants API的工具使用能力合二为一,创建了一个统一的接口,使开发者能够通过单一API调用解决复杂任务,从而彻底改变了代理开发的方式。这种整合不仅简化了开发流程,还提高了开发效率和代理性能。
统一的代理应用API
Responses API提供了一个统一的接口,使开发者能够轻松地将OpenAI模型与各种工具集成到应用中。与需要管理多个API或外部供应商的复杂性不同,Responses API简化了整个过程。
“Responses API就像是使用模型和工具来完成特定任务的原子单元,”OpenAI API团队的产品经理Nikunj Handa表示,”它让开发者能够专注于创新,而不是基础设施。”
这种统一的方法带来了显著的优势:
这种统一的设计不仅减少了开发复杂性,还提高了代理应用的可靠性和性能。OpenAI的官方博客指出,随着模型能力的不断发展,Responses API将为开发者构建代理应用提供更灵活的基础。
内置工具集成能力
Responses API的一个关键优势是其内置工具集成能力。开发者可以轻松地将网络搜索、文件搜索和计算机使用等功能整合到他们的应用中,无需复杂的自定义集成。
这些工具设计用于协同工作,将模型连接到现实世界,使它们在完成任务时更加有用。例如,一个客户支持代理可以同时搜索网络获取最新信息,并查询内部文档库以提供准确的回答。
“通过Responses API,开发者可以更清楚地了解模型在做什么——它调用了哪些工具,为什么调用它们,以及在这些调用前后做出了哪些决策,”OpenAI的API团队产品经理Nikunj Handa在接受VentureBeat采访时表示。
简化的开发者体验
Responses API不仅提供了强大的功能,还极大地简化了开发者体验。它采用统一的基于项目的设计、更简单的多态性和直观的流式事件,使开发者能够更轻松地访问和利用模型输出。
API还包括SDK辅助工具,如response.output_text
,可以轻松访问模型的文本输出。这些改进大大减少了开发时间和复杂性,使开发者能够更快地构建和部署代理应用。
此外,API使在OpenAI上存储数据变得更加容易,使开发者能够使用跟踪和评估等功能评估代理性能。这种集成的可观察性为优化代理行为提供了宝贵的见解。
内置工具有哪些,它们如何增强AI代理?
AI代理的真正价值在于它们与外部世界交互的能力。OpenAI的新工具集通过提供三种强大的内置工具显著增强了这种能力:网络搜索、文件搜索和计算机使用。这些工具使AI代理能够获取实时信息、检索文档和自动执行任务。
OpenAI的三种内置工具——网络搜索、文件搜索和计算机使用——为AI代理提供了”感官”和”行动能力”,使它们能够获取最新信息、检索相关文档并在计算机环境中执行任务。这些工具的集成使AI代理从纯粹的文本生成器转变为能够与现实世界交互并产生实际影响的自主系统。
支持引用的网络搜索
网络搜索工具允许开发者获取快速、最新的答案,并提供清晰、相关的网络引用。在Responses API中,网络搜索作为一种工具可用于使用gpt-4o和gpt-4o-mini时,并且可以与其他工具或函数调用配对。
“我们推出的第一个内置工具是网络搜索,它允许模型访问实时信息,”Handa表示,”它是为ChatGPT的搜索功能提供支持的同一工具,现在我们将其引入API。”
网络搜索工具的性能令人印象深刻。在SimpleQA基准测试中,该工具在回答简短的事实性问题方面表现出色:
通过API生成的带有网络搜索的响应包括来源链接,如新闻文章和博客文章,为用户提供了了解更多信息的方式。这些清晰的内联引用使用户能够以新的方式与信息互动,同时内容所有者获得了接触更广泛受众的新机会。
根据ZDNet的报道,这种搜索能力对于需要最新信息的应用程序至关重要,如购物助手、研究代理和旅行预订代理。
文档检索的文件搜索
文件搜索工具允许开发者轻松地从大量文档中检索相关信息。该工具支持多种文件类型,并包括查询优化、元数据过滤和自定义重新排序功能,可以提供快速、准确的搜索结果。
“我们推出的第三个工具是文件搜索,它使开发者能够轻松地将所有数据存储在我们的系统中,并以高精度提取正确的信息,”Handa解释道。
文件搜索工具可用于各种实际用例:
例如,旅行管理平台Navan使用文件搜索在其AI驱动的旅行代理中快速从知识库文章(如公司的旅行政策)中为用户提供精确答案。通过内置的查询优化和重新排序,他们能够建立强大的RAG(检索增强生成)管道,无需额外调整或配置。
这个工具对于任何需要从大量文档中快速检索信息的应用都是宝贵的,从企业知识管理到研究助手。
任务自动化的计算机使用
为了构建能够在计算机上完成任务的代理,开发者现在可以使用Responses API中的计算机使用工具,该工具由与Operator相同的计算机使用代理(CUA)模型提供支持。
内置的计算机使用工具捕获由模型生成的鼠标和键盘动作,使开发者能够通过直接将这些动作转换为其环境中的可执行命令来自动化计算机使用任务。
“我们还推出了计算机使用工具,允许模型在任务没有现有API时与图形用户界面交互,”Handa指出。
开发者可以使用计算机使用工具来自动化基于浏览器的工作流程,如对Web应用程序执行质量保证或跨遗留系统执行数据输入任务。例如,统一平台使用OpenAI的计算机使用工具访问以前通过API无法访问的信息,如通过在线地图验证业务是否扩展了其房地产足迹。
计算机使用工具在各种基准测试中表现出色:
尽管这些数字令人印象深刻,但OpenAI也承认该模型仍然容易出现无意的错误,特别是在非浏览器环境中。在这些场景中,建议人类监督。
开源Agents SDK如何简化多代理工作流程?
除了构建代理的核心逻辑并为它们提供工具外,开发者还需要协调代理工作流程。OpenAI的新开源Agents SDK简化了多代理工作流程的协调,并提供了显著的改进。
Agents SDK通过提供一个综合框架来管理、配置和监控多个协同工作的AI代理,彻底简化了复杂的代理工作流程。它的开源性质、智能交接功能和强大的可观察性工具使开发者能够构建和优化能够处理复杂、多步骤任务的代理系统,同时保持对整个流程的可见性和控制。
代理配置和管理
Agents SDK使开发者能够轻松配置和管理多个AI代理,每个代理都配备了特定的指令和工具集,以促进复杂的工作流程。这种简化的管理使开发者能够创建专门的代理团队,每个代理都专注于特定的任务或领域。
“通过Agents SDK,开发者可以准确地跟踪代理正在做什么——它产生了哪些任务,收集了哪些数据,以及如何生成响应,”OpenAI团队在TechCrunch的一篇文章中表示。
SDK的主要功能包括:
这些功能使开发者能够创建和管理复杂的代理系统,而无需处理底层的复杂性。
代理之间的智能交接
Agents SDK的一个关键功能是其支持代理之间的智能交接,确保工作流程的连续性。这种功能使一个代理能够完成部分任务,然后将控制权转移给另一个更适合下一步的代理。
例如,一个初始分类代理可以分析用户请求,然后将其路由到专门的代理,如研究代理、编码助手或客户支持代理。这种协作方法使代理能够处理复杂的多步骤任务,每个代理都专注于其专业领域。
“Agents SDK是开源的,允许企业混合和匹配不同的模型,”OpenAI平台产品负责人Olivier Godement表示,”我们不想强迫任何人只使用OpenAI模型。”
这种灵活性使开发者能够创建由多个专门代理组成的复杂系统,每个代理都针对特定任务进行了优化。
跟踪和可观察性功能
Agents SDK提供了强大的跟踪和可观察性功能,使开发者能够可视化和调试代理执行。这些工具提供了对代理行为的宝贵见解,使开发者能够识别瓶颈、优化性能并确保可靠性。
通过监控仪表板,开发者可以查看每个与AI的交互,识别使用了哪些代理,以及它们如何被任务分配。这种透明度对于调试和优化代理系统至关重要,特别是考虑到AI幻觉的普遍性。
加密货币交易所Coinbase使用Agents SDK快速原型化和部署AgentKit,这是一个工具包,使AI代理能够与加密钱包和各种链上活动无缝交互。在短短几个小时内,Coinbase将其开发者平台SDK中的自定义操作集成到了一个功能齐全的代理中。
这对AI代理开发的未来意味着什么?
OpenAI的新代理构建工具标志着AI开发的重要转变,从实验性概念到实用的企业解决方案。这些工具不仅简化了当前的开发过程,还为未来的创新铺平了道路。
OpenAI的新代理构建工具套件代表了AI开发的范式转变,将AI代理从实验性概念转变为实用的企业解决方案。通过降低技术门槛、提供强大的内置功能和支持安全可靠的部署,这些工具正在为AI代理大规模进入各行各业铺平道路,同时为未来更高级的自主系统奠定基础。
对企业应用的影响
这些新工具对企业应用的影响是深远的。它们使企业能够构建自动化复杂任务的AI代理,从客户支持和数据分析到销售和市场研究。
“我们相信代理很快将成为劳动力的组成部分,显著提高各行业的生产力,”OpenAI在其官方博客中表示,”随着公司越来越寻求利用AI处理复杂任务,我们致力于提供构建块,使开发者和企业能够有效地创建自主系统,产生现实世界的影响。”
这些工具的实际应用已经显示出令人印象深刻的结果:
这些例子说明了AI代理如何为各种行业带来实际价值,从金融和旅行到销售和企业数据管理。
API过渡策略
随着新工具的推出,OpenAI还概述了其API过渡策略。该公司将继续支持Chat Completions API,这是其最广泛采用的API,并致力于通过新模型和功能对其进行支持。
然而,对于Assistants API,OpenAI计划在2026年中期正式宣布其弃用,目标日落日期为2026年中期。在弃用之前,公司将继续向Assistants API交付新模型,并致力于实现Assistants和Responses API之间的完全功能平等。
“基于开发者对Assistants API测试版的反馈,我们将关键改进整合到Responses API中,使其更灵活、更快速、更易于使用,”OpenAI在Learn Prompting的一篇文章中解释道。
这种过渡策略为开发者提供了明确的路径,同时确保他们有足够的时间调整他们的应用程序。
构建自主代理平台
OpenAI的新工具集代表了构建全面的自主代理平台的第一步。随着模型能力变得越来越具有代理性,该公司计划继续投资于其API的更深入集成和新工具,以帮助部署、评估和优化生产中的代理。
该公司的目标是为开发者提供一个无缝的平台体验,用于构建能够帮助各行业完成各种任务的代理。这一愿景与OpenAI CEO Sam Altman在2025年1月的声明相呼应,即2025年是AI代理进入劳动力的一年。
随着这些工具的继续发展,我们可以期待看到更多的创新和应用,因为开发者利用这些构建块来创建越来越复杂和自主的系统。
结论
OpenAI的新代理构建工具代表了AI开发的重大进步。通过简化代理逻辑、协调和交互,这些工具使开发者能够更轻松地开始构建代理。Responses API、内置工具和Agents SDK共同为构建复杂、多功能的AI代理提供了强大的基础。
随着这些工具的继续发展和完善,我们可以期待看到AI代理在各行各业的应用越来越广泛,从客户支持和研究到销售和数据分析。对于希望利用AI的强大功能的开发者和企业来说,现在是开始探索这些工具并构建下一代AI应用的绝佳时机。
参考文献
- OpenAI: New Tools for Building Agents
- The Verge: OpenAI is trying to help developers build their own agents
- VentureBeat: OpenAI unveils Responses API, open-source Agents SDK
- ZDNet: Why OpenAI’s new AI agent tools could change how you code
- TechCrunch: OpenAI launches new tools to help businesses build AI agents
- Learn Prompting: OpenAI New Tools for Building Agents
- Medium: Building AI Agents with OpenAI Agents SDK