AI Agents 24 年回顾 – 五大发展趋势 特工宇宙 • 2025-01-14 23:16 • 产品 • 117 views 特别感谢特工宇宙战略顾问 @庄明浩 老师的推荐。本文二创自 Victor Dibia 博士的一期播客,其是微软 GenAI/HCI 相关研究员,知名多智能体框架 AutoGen 贡献者。 2024 年,我花了相当一部分时间在研究多智能体系统,主要是 AutoGen,一个用于构建 AI 应用的 OSS 框架,并为此写了一本书《Multi-Agent Systems with AutoGen》。 书籍一览 我还运营了一个多智能体栏目,并将我这一年的总结与反思,融汇成了这一篇文章。 https://multiagentbook.com/news/ 企业正在采用 AI Agents,关键是如何部署 许多企业和初创公司都在产品中使用了 Agent。AI Agent 广义上是指代表用户执行的系统,目的是节省用户的时间,避免繁琐忙碌的工作。 下面是一些企业中应用 Agent 的例子: 1. 微软 Copilot Agent:AI Agent 可协助用户执行各种任务,与用户并肩工作,为用户提供建议,自动执行重复性任务,并提供见解,帮助用户做出明智决策。 2. Salesforce Agentforce:Agentforce 是一款主动、自主的 AI 应用程序,可为员工或客户提供专业化、始终在线的能力支持。用户可以为 Agentforce 配备任何必要的业务知识,以便根据其特定角色执行任务。 3. Sema4.ai:当涉及到复杂的、以知识为基础的工作时,RPA 就显得有一些捉襟见肘,RPA 缺乏推理、判断和适应现实世界变化的能力。 4. LinkedIn HR Assistant:招聘人员可以选择将耗时的任务委托给 Hiring Assistant,包括寻找候选人和协助申请人审核,这样他们就可以专注于更具战略性、以人为本的工作。 这里最关键的是 Agent 的部署方式。 大多数部署都将 LLM 当作 Wrapper/Orchestrator,即「调用」现有 API 作为工具。 从本质上讲,这种趋势代表了一种转变,即从「点击获取数据、上传到 Salesforce 和生成报告按钮」这种手动操作偏少的方法,转变为「对话即可生成报告」这种更简单的方法,同时由支持 LLM 的管道来处理点击操作。 这显然是一种有效的方法。既保留了现有 AI 接口的可靠性,又尽量减少了重复步骤改善用户体验。但这也并非易事,因为要确保在大规模生产中选择可靠的工具仍然具有挑战性。虽然这离真正的自主助手(可以理解为 Agent 的顶级最终态)还有几步之遥,但这代表了向这一征程迈出的第一步。 😶以前:用户在产品中完成任务时需要与不同的 API 和应用交互; 🤗趋势:LLM 充当协调层,将自然语言请求转化为多个 API 调用,最大限度地减少点击和中间任务。 Agent-Native 基础模型 今年一个有趣的发现是,有许多团队建立了专为 Agent 设计的基础模型。 一个好的 Agent 必须做好几件事: 1. Planning:通过多步骤任务规划进行推理 2. Tools:使用工具行动 3. Memory:适当利用记忆 4. 以及与其他 Agent 通信交互 这里的重要趋势是,上述 Agent 能力现在正被提升融入到生成模型本身。 1. OpenAI:o1 模型强调推理、规划、任务拆解等,而这些能力以前是分散在多个 Agent 行动中的。就在今年年底(12 月 20 日),OpenAI 宣布(但尚未发布)了 o3 系列模型,o3 是具有更强大的推理计算能力(test-time compute)。 2. Gemini:Gemini 2.0 Flash 的原生用户界面操作能力以及其他改进,如多模态推理、长上下文理解、复杂指令跟踪和规划、组合函数调用、原生工具使用和延迟改进等。 此外,模型也在不断进步,可以做更多的事情。 1. 多模态输出:谷歌的 Gemini 2.0 Flash 是一个原生的多模态输入(文本、图像)和输出(文本、图像和音频)模型。 2. ChatGPT 高级语音模式。 3. 电影生成:来自 Meta 的 Movie Gen 是一个专门的电影生成模型。 4. Lynn Cherny 中介绍了来自 Google 的 Veo 2 视频生成模型和许多其他创意工具(传送门:https://arnicas.substack.com/p/titaa-62-december-ai-madness/comments)。 向「Agent-Native」架构的转变反映出,人们越来越认识到,有效的 Agent 需要的不仅仅是一般的语言对话能力,它们还需要内置的规划、工具使用和协调能力。 😶以前:LLM 只关注语言模型本身。规划、工具使用和任务分解/推理等功能都是在模型外部实现的。 🤗趋势:模型从设计之初就内置了多步骤任务分解、规划、工具使用和多模式交互功能。 Interface Agents 成为主流 Interface Agents 详细介绍:https://newsletter.victordibia.com/p/interface-agents 如果说 2024 年有哪个应用领域主导着商业 Agent 的部署,那就是 Interface Agents,通过驱动界面和接口(网络浏览器、桌面操作系统等)来完成任务的 Agent。 1. Kura AI 和 Runner H 等初创公司:发布了通过驱动网页浏览器来解决任务的 Agent 产品。 2. 微软的 OmniParser:改进了 Agent 与图形用户界面元素的交互方式。 3. 新版 AutoGen 和 AutoGen Studio:提供了一个 WebSurferAgent 预设,可以通过驱动网页浏览器来解决任务。 4. ChatGPT 屏幕共享模式:具有视觉功能的 ChatGPT 高级语音模式也可以通过屏幕共享了解屏幕上的内容。 5. Anthropic Claude Computer Use:开发者可以指导 Claude 像人一样使用计算机看屏幕、移动光标、点击按钮和输入文本。 6. 谷歌的 Project Mariner:结合了强大的多模态理解和推理能力,可以使用浏览器自动执行任务。 7. Browser Use extension :让 AI Agent 可以访问网站(传送门:https://github.com/browser-use/browser-use)。 Agent 可以通过自动执行现有不同应用程序中的重复性任务,带来直接的价值。 😶以前:Agent 的行动空间通常来自编程工具和代码执行。 🤗趋势:直接操作用户界面(Web、桌面)成为 Agent 行动的主要方法。 向复杂任务的转变与 Agent 框架的兴起 2024 年人们普遍对 Agent 系统的性能感到焦虑,担心它们是否炒作大于实质。在 LangChain 的一项调查中,41% 的受访者提到性能是使用 Agent 的主要瓶颈。 这种担心的根源是不知道什么时候该使用什么样的 Agent 架构。在许多情况下,可能甚至不需要建立一个 Agent。 2024 年还标志着从简单的 Agent 应用(如使用 LangChain 等工具进行自然语言天气查询)向更复杂、更自主的场景过渡,如 App 开发(Devin、Co),甚至是通用助理。 一个关键的挑战依然存在:为这些复杂的任务选择合适的模式。具体来说,就是如何有效地实现包括分支逻辑、反思、元认知等在内的行为。这些模式的重要性值得我们在之后深入探讨。 为了应对这些挑战,一年内出现了一些人工智能框架、指南和研究论文,其中包括: 1. AutoGen:用于构建 AI Agent 系统的开源框架。 2. Magentic One:使用 AutoGen 构建的高性能通用 Agent 系统,旨在解决复杂任务。系统采用多 Agent 架构,由一个领导 Agent(即 “协调者”)指挥其他四个 Agent 完成任务。协调者制定计划、跟踪进度并重新制定计划以从错误中纠正,同时指导专门的 Agent 执行任务,如操作网络浏览器、浏览本地文件或编写和执行 Python 代码。 3. AutoGen Studio:一款用于原型设计、测试和调试多 Agent 应用程序的无代码工具。 4. LangGraph:利用 LangGraph 获得控制,设计能够可靠处理复杂任务的Agent。 5. OpenAI Swarm:轻量级多 Agent 协作框架。 6. CrewAI。 7. Pydantic AI:Python Agent 框架,旨在减少使用生成式人工智能构建生产级应用的痛点。 2024 年,AutoGen 的核心重点将是使各种 Multi-Agent 模式的表达更容易,并为此提供构建模块。 😶以前:适用于简单任务的简单链和工具调用的序列模式。 🤗趋势:用于处理复杂、多步骤任务的复杂模式,需要规划、思考和协调。 端到端的 Agents Benchmarks 2024 年推出的 benchmarks(基准测试)让我们了解了自主多 Agent 系统可以处理的任务类型以及它们的性能如何。用于计算可重复性的 CORE-Bench 框架、专注于基于 Web 任务的 WebArena ,以及微软的 Windows Agent Arena,都促使该领域更加严格地评估任务中的 Agent 行为。 这些基准测试有利有弊。虽然专用 Agent 在垂直领域中表现出了令人印象深刻的能力,但通用 Agent 仍然难以应对复杂的、开发的任务。 在 WebArena 中,端到端任务的成功率仅为 14.41%,而人类的成功率为 78.24%。 但值得注意的是,在接近年底时,我们在一些 benchmarks 中看到了性能的阶跃式增长,例如,OpenAI 最新宣布(但尚未发布)的 o3 模型在 ARC-AGI 基准测试中获得了 87.5 分,而人类的基准分是 85 分。 尽管 benchmark 有很多缺陷(往往不能反映业务问题的实际表现),但我认为 benchmark 仍然是真正的 AGI/ASI 出现之前的金科玉律。 😶以前:侧重于单个模块能力(语言、推理、工具使用)的临时评估。 🤗趋势:衡量端到端 Agent 性能的综合任务完成的 Benchmarks。 展望 2025 会发生什么? 1. 模型能力层面提升 将更多功能提升融入到模型中的趋势将继续下去。 例如,我们很可能会看到擅长适应性/个性化的模型,能够明智地决定存储哪些信息、何时存储、如何以及何时有效地检索信息,从而高效地使用记忆。 2. Agent 架构更加可靠性 如果说 2024 年是 Agent 成为能解决问题的可行方法的一年,那么 2025 年将是 Agent 成为特定问题领域上性能最佳的解决方案的一年。汇聚在一套 Multi-Agent 系统开发模式上将会让我们实现这一目标。 在不同复杂度水平上模式的演进可能会分阶段展开: 1. 阶段一:将重点关注基础能力,简单、重点明确的任务,如可视化生成和文件转换,作为更复杂应用的基石; 2. 阶段二:解决更复杂的问题,实现综合数据分析和公司研究等高级应用,以及自动订餐和航班预订等复杂任务; 3. 阶段三:重点是整合,引入能够可靠处理之前所有任务的通用助手。 这些系统就像 Sam Altman 提到的那样,也是 Magentic One 等早期系统的前身,融合了从早期阶段吸取的经验教训。随着我们对整个技术栈的优化,成功的模式将会出现。这些模式将被标准化,并纳入库和框架之中,为何时使用特定方法提供明确指导。 3. Agent 市场兴起 将看到可复用的 Agent 和 Agent 市场的兴起,特别是针对常见问题,如研究任务、内容生成、应用开发等。这个生态 可能既包括初创公司的商业产品,也包括一些开源实践。虽然这可能会为初创公司创造一个具有挑战性的环境,但同时也会促进良性竞争和创新。 原创文章,作者:特工宇宙,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/32494.html Like (0) 0 Generate poster 关于作者 特工宇宙 大模型日报(1月14日 学术篇) Previous 2025-01-14 22:36 怒喵李楠的「AI 眼镜」大实话:别骗自己有技术,抓紧兑现风口|Z Talk Next 2025-01-15 17:51 相关推荐 产品 对话戴雨森:ChatGPT展现了AI新大陆,我们终会抵达|Z Talk 真格基金管理合伙人戴雨森有一个比喻:GPT-3 的出现等于发现新大陆,而 ChatGPT 的出现,好比是在新大陆上发现了黄金。 中国公司的追赶之旅则如同知道了新大陆和黄金… 2023-07-12 2180 产品 字节跳动AI产品版图 字节跳动已经成超级APP工厂,逐步成长为超级AI工厂。 低调、危机感、All In AI、内部赛马,是我给字节跳动的几个关键词。 2024-02-21 2360 产品 又一革新,当ChatGPT有了肉体。 今天,Figure发布了全新的演示视频,结合了OpenAI多模态的能力,机器人可以与人进行全面对话,听懂人类指令并执行。 FounderPark视频搬运的非常快(好评),我们从视频… 2024-03-14 2490 产品 AI逐帧理解大片中每个动作;人造神经元成功操纵植物;指甲盖大小的硅光子芯片激光雷达;网易伏羲开源全球首个中文精标歌声合成数据集 人工智能新鲜趣闻,前两周你遗漏的可能都在这里了。 01 「上海交大发布“人类行为理解引擎”:深度学习+符号推理,AI助逐帧理解大片中每个动作」 看图看片,对现在的AI来说早已不是… 2022-03-15 2400 产品 飞书多维表格秘技:一键批量提取、DeepSeek R1分析和改写抖音爆款文案 你是否曾经面对这样的困境:需要从抖音账号中提取大量视频文案,却发现一个个手动处理简直要了老命?每次想到这项任务就头大三圈?别担心,今天黄叔带来一个真·解放双手的全流程教程,帮你一键… 2025-03-19 1000 产品 MolarData| AI领域资讯速递 MOLAR NEWS 2020年第19期 MolarData人工智能每周见闻分享,每周一更新。 全球最大的图像识别数据库ImageNet不行了?谷歌DeepMind新方法提升精… 2020-06-29 1900 产品 Automotive World 2025 | 和整数智能再聚东京,共话智能驾驶新趋势 Automotive World是世界领先的先进汽车技术展,汇集了自动驾驶、互联汽车、汽车电子、EV/HV/FCV、轻型汽车、MaaS等行业主题。本次展会… 2025-01-21 420 产品 三万字实录对话 Google Deepmind 研究员:拆解 OpenAI o1 及 LLM+RL 新范式|Z Talk Z Talk 是真格分享认知的栏目。 提起今年最受关注的事件,一定绕不开 OpenAI o1 模型的发布,OpenAI CEO Sam Altman 也称之为新范式的开始。经过强化… 2024-12-04 460 产品 阶跃星辰,发力智能终端 Agent 内容丨特工少女 编辑丨特工十五 特工小鹏 阶跃星辰这个品牌,老粉们一定不会感到陌生。我们在 2024 年 2 月 就关注到这家,名字和理念都跟特工宇宙气味相投的大模型创业公司。 而… 2025-02-24 1410 产品 实测十余款AI助理,只有这款最合我心意。 最近群友分享了一个AI助理的创作心得,发现整个制作流程非常丝滑,不过尴尬的是,作为一个深度体验上千个AI产品的爱好者,我竟然没有见过…是哪支黑马? 虚心请教之后发现,他… 2024-03-20 3840