阿里数赛 AI 挑战赛,我们是全球第二。

阿里数赛 AI 挑战赛,我们是全球第二。
特工宇宙团队在阿里巴巴全球数学竞赛 AI 挑战赛中,拿到了2/563的名次
而这场硅基与数学之战的前三名,均是一群 00 后。
本文共分为三个部分:心路历程、活动预告、实现思路。其中有两个重点👇
🌟我们邀请了本次比赛的前三名(其中第一名为 17 岁高中生),在本周五晚上一起做一个分享。
🌟特工鲸鱼目前大四,正在寻找大厂相关工作机会,有老板还缺人的话,欢迎在文末添加他聊一聊~
阿里数赛 AI 挑战赛,我们是全球第二。
风起于青萍之末。这一切,都只是源自鲸鱼的一个提议。
当初三月份底知道今年的比赛还有 AI 赛道时,特工鲸鱼就拉着大家一起参加。
也许刚开始我们自己也不觉得能拿到比较好的奖项,但每次拉会议讨论,以及协同合作,大家都有积极参与帮助鲸鱼,并且提出了很多不错的方案。
阿里数赛 AI 挑战赛,我们是全球第二。
还有在比赛过程中大家提交文档时的协作,当时由于 Agent 输出的都是 LaTeX 的排版,但粘贴到飞书存档提交时需要对每个公式都进行重新定义,才能正常显示为公式的格式,否则只能显示出普通文本,很不方便组委会阅卷。
那个周末三个人手都点冒烟了,这是一个 dirty work,但大家从没说过一句放弃,一直帮助鲸鱼到比赛结束,非常感谢特工宇宙的大家庭。
阿里数赛 AI 挑战赛,我们是全球第二。
同时我们也在进行着其它有意思的 idea 的探索和研究,在不久之后,我们希望再一次给大家带来更多惊喜!
阿里数赛 AI 挑战赛,我们是全球第二。
鲸鱼也注意到,大家似乎对于 AI 的成绩并不满意,会开玩笑地谈论到“AI 跌下神坛”。
但就像特工鲸鱼在出比赛成绩前被采访时说到的:“我认为目前 AI 如果能做到 30 分我已经很满意了,我们需要对 Agent 留有一些耐心。”
与其唱哀,不如想想,2023 年 5 万多人报名参加阿里巴巴数学竞赛,只有685人晋级,晋级率是1.3% ,而这五万人谁又不是有一个热爱数学的心,而那些晋级的同学背后又何尝不是在以往的时间中付出了加倍的努力?
所以 AI 目前无法晋级决赛,其实是我们意料之中的,但随着底层技术以及应用层的迭代,特工们自身的能力也在不断提高,我们希望下一次会给大家交上满意的答卷。
阿里数赛 AI 挑战赛,我们是全球第二。
有缘的是,成绩公布时我们发现,这次比赛的第三名的张佳钇同学和特工鲸鱼互相认识,都曾是 MetaGPT 的贡献者。
此外,赛后我们也联系上了位列第一的涂津豪同学,所以我们一同进行了线上会议的方案交流探讨。
阿里数赛 AI 挑战赛,我们是全球第二。
虽然鲸鱼和佳钇都用的比较长程的 Multi-Agent 并调用外部工具辅助,但最终效果却没有津豪不使用工具,而是使用纯 Prompt+Agent 的方案的成绩高,这是我们三人都意料之外的。
不过细想之后,我们发现 Multi-Agent 在不同线程及不同 Agent 间传递信息时会出现信息损失或理解偏差,这也和人类一样,所以我们在后续优化中也会加入一个全局监听的 Agent 用于保证每一步信息传递及推导没有出现错误。
阿里数赛 AI 挑战赛,我们是全球第二。
我们这群 00 后如同遇到了知己一般,我们将会在明年的赛场上,一起合作组成一个队伍,再次带领硅基向碳基发起挑战,我们有信心在 2025 年的比赛中杀入决赛。
特工鲸鱼在本周五也会前往上海,线下采访涂津豪同学并录制播客,大家如果有感兴趣的问题也欢迎提出,我们会把大家的疑问带到津豪同学那里。
为了让大家更加了解这次 AI 赛道在榜前三的方案,我们三人也会在 6 月 21 日(本周五)晚上八点,举办一场线上分享会。
包括这次比赛的技术方案报告,以及解答大家关心的话题,我们分享会见,不见不散~
阿里数赛 AI 挑战赛,我们是全球第二。
阿里数赛 AI 挑战赛,我们是全球第二。
作为特工宇宙 Agent Universe,我们也理所当然在这场比赛中使用了 Multi-Agent 的方案。
下面我们就跟随主要开发者——特工鲸鱼的视角,来看一看我们是如何设计这个 Multi-Agent 的运作逻辑的。
为了方便大家理解,我们先从输入问题的入口开始一步一步介绍局部设计,我们将在最后展示整体的框架。

Step1. 给出不同解题路径

阿里数赛 AI 挑战赛,我们是全球第二。
当 question 被输入到这个框架内后,首先 Agent 会解析,该问题可能可以从哪些方式解决,而每个解题方式就对应了一条路径,对于不同路径,我们还会交替使用 GPT-4-turbo 和 Claude-opus 进行解答,这也是防止单一模型陷入“陷入局部解”的情况。
例如 way1 中的模型使用 GPT-4-turbo,在 way2 中的模型会使用 Claude-opus,依次类推。

Step2. 分析当前状态和已知信息

阿里数赛 AI 挑战赛,我们是全球第二。
在上一步中,我们得到了不同路径的解题方式,这里我们聚焦于第一条路径,分析具体在过程中如何求解。
在进入该路径后,首先会做的就是分析当前的已知信息,对于刚开始拿到题目的 Agent 来说,分析给出的解题路径建议和题目已知信息是必须的。而对于后续求解过程中,每次进行一轮分析求解分析都会回到这一节点,这个环节主要的作用又变为分析整合其它 Action/Agent 返回的求解结果。
进行分析后,Agent 会返回一个对当前状态的分析,即 situation.

Step3. 规划下一步行动

阿里数赛 AI 挑战赛,我们是全球第二。
在分析完当前状态信息后,下一步即是根据这些已知的求解答案和反馈,规划下一步需要调用的 Action 或是呼叫其它 Agent。analyze next step 的作用是进行上述规划,而 Choose action 的作用只是将这个规划以标准形式重新格式化,方便在 Python 中解析。

Step4. 执行动作

阿里数赛 AI 挑战赛,我们是全球第二。
这里五个用于求解的 Action 可供上一步调用,并在这一步执行:
  • wolfram alpha: 这个 action 实际是封装好的一个调用 Wolfram Alpha 的函数,传入需要求解的方程/算式,Wolfram Alpha 会帮助进行计算或推导;

  • simple calculate: 这个 action 是 Wolfram Alpha 下行的替代品,我们编写了简单的计算函数,用于计算初等函数的算式,而不需要消耗大量 Token;

  • deep think: 这个 action 实际使用 Prompt 时 Agent 进一步深度分析可能的解题路径;

  • deduction: 这个 action 也是使用 Prompt 的方案,让 Agent 逐步进行推导分析;

  • programmer: 这实际上是一个 Agent,调用它后会根据问题及主流程的 Agent 的需求,编写代码输出数值解等答案,递交给主流程的 Agent.
而这里比较特殊的 action 是 Resolve,调用它的时候代表 Agent 认为已经求解出了最终答案,并跳出循环求解,将其进行输出。
其中 Programmer 这个 Agent 内部逻辑如下,其实也比较简单。
阿里数赛 AI 挑战赛,我们是全球第二。
主体逻辑实际上就是撰写代码,然后执行代码,拿到结果,如果出现报错,就拿到报错信息,自己修改 bug,直到运行成功或达到自我修改 bug 的上限次数。

Step5. 判断循环或跳出

阿里数赛 AI 挑战赛,我们是全球第二。
在这里我们设置了一个循环求解上限 n,为了防止 Agent 在无限的循环求解中。
对于没有达到上限的情况,Agent 会返回 Step2,分析刚刚及之前得到的结果,开启下一轮思考和行动;
对于达到上限的情况,Agent 会被强制要求输出一个认为最可能的答案。

Step6. 针对每个路径进行关键点总结

阿里数赛 AI 挑战赛,我们是全球第二。
到了这一步,代表每一个路径都输出了一个“可能”的答案,当然这里的答案可能并不都相同。
而这一步的作用是对每个解题 Agent 的路径做一个关键步骤的总结,并进行信心值打分。对于那些路径中严格计算,并调用“Resolve”解决的方案,通常信心值比较强。对于被迫达到循环上限输出的答案,信心值就会比较一般。
而总结的作用也是为了防止下一步对于不同解题路径评判时,整合在一起时上下文 context 过长。

Step7. 评审出最终答案

阿里数赛 AI 挑战赛,我们是全球第二。
将 k 个答案及步骤总结发送到最后一环,根据不同路径下的信心程度及答案重叠数,Agent 给出最后确定的答案,整个解题也到此结束。
整体看下来,也就是下面这张图,涵盖了整个框架的大部分流程和逻辑:
阿里数赛 AI 挑战赛,我们是全球第二。
回顾这次 Multi-Agent 整套框架,其实还有很多值得优化的点还没有做,不论是不同链路的并行,还是在推导证明这个短板处,我们还没来得及接入 Lean4 进行证明增强,都还有很多很多可以完善的地方,所以我们对下次参赛,AI 能进入决赛满怀信心。
想了解更多信息?
特工宇宙这次项目的详细文档(复制链接打开或点击阅读原文)👇
阿里数赛 AI 挑战赛,我们是全球第二。
https://vxp8rj0a97u.feishu.cn/wiki/space/7357981359178186754?ccm_open_type=lark_wiki_spaceLink&open_tab_from=wiki_home
项目的代码仓库:https://github.com/isaacJinyu/Math-Multi-Agent
特工宇宙 GitHub 组织:https://github.com/Agent-Universe/
阿里数赛 AI 挑战赛,我们是全球第二。

阿里数赛 AI 挑战赛,我们是全球第二。

阿里数赛 AI 挑战赛,我们是全球第二。
阿里数赛 AI 挑战赛,我们是全球第二。

原创文章,作者:特工宇宙,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/2514.html

Like (4)
Previous 2024-06-17 19:09
Next 2024-06-18 18:30

相关推荐