阿里数赛 AI 挑战赛，我们是全球第二。

特工宇宙团队在阿里巴巴全球数学竞赛 AI 挑战赛中，拿到了2/563的名次。

而这场硅基与数学之战的前三名，均是一群 00 后。‍‍‍

本文共分为三个部分：心路历程、活动预告、实现思路。其中有两个重点👇

🌟我们邀请了本次比赛的前三名（其中第一名为 17 岁高中生），在本周五晚上一起做一个分享。

🌟特工鲸鱼目前大四，正在寻找大厂相关工作机会，有老板还缺人的话，欢迎在文末添加他聊一聊～

风起于青萍之末。这一切，都只是源自鲸鱼的一个提议。

当初三月份底知道今年的比赛还有 AI 赛道时，特工鲸鱼就拉着大家一起参加。

也许刚开始我们自己也不觉得能拿到比较好的奖项，但每次拉会议讨论，以及协同合作，大家都有积极参与帮助鲸鱼，并且提出了很多不错的方案。

还有在比赛过程中大家提交文档时的协作，当时由于 Agent 输出的都是 LaTeX 的排版，但粘贴到飞书存档提交时需要对每个公式都进行重新定义，才能正常显示为公式的格式，否则只能显示出普通文本，很不方便组委会阅卷。

那个周末三个人手都点冒烟了，这是一个 dirty work，但大家从没说过一句放弃，一直帮助鲸鱼到比赛结束，非常感谢特工宇宙的大家庭。

同时我们也在进行着其它有意思的 idea 的探索和研究，在不久之后，我们希望再一次给大家带来更多惊喜！

鲸鱼也注意到，大家似乎对于 AI 的成绩并不满意，会开玩笑地谈论到“AI 跌下神坛”。

但就像特工鲸鱼在出比赛成绩前被采访时说到的：“我认为目前 AI 如果能做到 30 分我已经很满意了，我们需要对 Agent 留有一些耐心。”

与其唱哀，不如想想，2023 年 5 万多人报名参加阿里巴巴数学竞赛，只有685人晋级，晋级率是1.3% ，而这五万人谁又不是有一个热爱数学的心，而那些晋级的同学背后又何尝不是在以往的时间中付出了加倍的努力？

所以 AI 目前无法晋级决赛，其实是我们意料之中的，但随着底层技术以及应用层的迭代，特工们自身的能力也在不断提高，我们希望下一次会给大家交上满意的答卷。

有缘的是，成绩公布时我们发现，这次比赛的第三名的张佳钇同学和特工鲸鱼互相认识，都曾是 MetaGPT 的贡献者。

此外，赛后我们也联系上了位列第一的涂津豪同学，所以我们一同进行了线上会议的方案交流探讨。

虽然鲸鱼和佳钇都用的比较长程的 Multi-Agent 并调用外部工具辅助，但最终效果却没有津豪不使用工具，而是使用纯 Prompt+Agent 的方案的成绩高，这是我们三人都意料之外的。

不过细想之后，我们发现 Multi-Agent 在不同线程及不同 Agent 间传递信息时会出现信息损失或理解偏差，这也和人类一样，所以我们在后续优化中也会加入一个全局监听的 Agent 用于保证每一步信息传递及推导没有出现错误。

我们这群 00 后如同遇到了知己一般，我们将会在明年的赛场上，一起合作组成一个队伍，再次带领硅基向碳基发起挑战，我们有信心在 2025 年的比赛中杀入决赛。

特工鲸鱼在本周五也会前往上海，线下采访涂津豪同学并录制播客，大家如果有感兴趣的问题也欢迎提出，我们会把大家的疑问带到津豪同学那里。

为了让大家更加了解这次 AI 赛道在榜前三的方案，我们三人也会在 6 月 21 日（本周五）晚上八点，举办一场线上分享会。

包括这次比赛的技术方案报告，以及解答大家关心的话题，我们分享会见，不见不散~

作为特工宇宙 Agent Universe，我们也理所当然在这场比赛中使用了 Multi-Agent 的方案。

下面我们就跟随主要开发者——特工鲸鱼的视角，来看一看我们是如何设计这个 Multi-Agent 的运作逻辑的。

为了方便大家理解，我们先从输入问题的入口开始一步一步介绍局部设计，我们将在最后展示整体的框架。

当 question 被输入到这个框架内后，首先 Agent 会解析，该问题可能可以从哪些方式解决，而每个解题方式就对应了一条路径，对于不同路径，我们还会交替使用 GPT-4-turbo 和 Claude-opus 进行解答，这也是防止单一模型陷入“陷入局部解”的情况。

例如 way1 中的模型使用 GPT-4-turbo，在 way2 中的模型会使用 Claude-opus，依次类推。

在上一步中，我们得到了不同路径的解题方式，这里我们聚焦于第一条路径，分析具体在过程中如何求解。

在进入该路径后，首先会做的就是分析当前的已知信息，对于刚开始拿到题目的 Agent 来说，分析给出的解题路径建议和题目已知信息是必须的。而对于后续求解过程中，每次进行一轮分析求解分析都会回到这一节点，这个环节主要的作用又变为分析整合其它 Action/Agent 返回的求解结果。

进行分析后，Agent 会返回一个对当前状态的分析，即 situation.

在分析完当前状态信息后，下一步即是根据这些已知的求解答案和反馈，规划下一步需要调用的 Action 或是呼叫其它 Agent。analyze next step 的作用是进行上述规划，而 Choose action 的作用只是将这个规划以标准形式重新格式化，方便在 Python 中解析。

这里五个用于求解的 Action 可供上一步调用，并在这一步执行：

wolfram alpha: 这个 action 实际是封装好的一个调用 Wolfram Alpha 的函数，传入需要求解的方程/算式，Wolfram Alpha 会帮助进行计算或推导；
simple calculate: 这个 action 是 Wolfram Alpha 下行的替代品，我们编写了简单的计算函数，用于计算初等函数的算式，而不需要消耗大量 Token；
deep think: 这个 action 实际使用 Prompt 时 Agent 进一步深度分析可能的解题路径；
deduction: 这个 action 也是使用 Prompt 的方案，让 Agent 逐步进行推导分析；
programmer: 这实际上是一个 Agent，调用它后会根据问题及主流程的 Agent 的需求，编写代码输出数值解等答案，递交给主流程的 Agent.‍