大模型日报（6月25日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

RAG 工业落地方案框架（Qanything、RAGFlow、FastGPT、智谱RAG）细节比对

本文详细比较了四种 RAG 工业落地方案 ——Qanything、RAGFlow、FastGPT 和智谱 RAG，重点分析了它们在知识处理、召回模块、重排模块、大模型处理、Web 服务和切词处理等方面的具体实现。Qanything 在 rerank 模块设计上表现出色；RAGFlow 在文档处理方面优势明显；FastGPT 提供了高度动态配置的模块；智谱 RAG 则在领域数据上的模型微调上有着特殊的优势。每个方案都有其独特的技术细节和适用场景，强调了在实际应用中，选择合适的技术实现以及对细节的精细化处理对于项目的成功至关重要。

https://zhuanlan.zhihu.com/p/704828374?utm_psn=1788240074799992833

用强化学习解决现实问题：Stochasticity、Scale、GAE与Curriculum Learning

文章探讨了强化学习在现实问题解决中的应用，特别是如何处理随机性（Stochasticity）和规模（Scale）问题。作者通过实例说明了在手机操作系统中完成查资料和购物任务的 RL 模型，强调了显式建模随机性的重要性。为了应对数据需求，开发了多机分布式并行脚本以大规模收集数据。此外，文章提出了使用任务完成情况作为整体轨迹的奖励，而非单步奖励，以简化评估过程。

在模型选择上，作者使用了参数量为 1.5B 的小模型，并通过与 GPT-4 的比较展示了其性能优势。文章还提供了 base 模型选择的建议，即选择性能不差且大小适中的模型，以便于训练。算法方面，提出了 Filtered AWR 和 GAE 的简化版本，以及 Automatic Curriculum Learning 策略，这些都是为了更好地适应现实问题的复杂性。实验结果显示，所提出的方法在性能上超越了现有的 agent，如 GPT-4 和 Gemini，并在相同数据集上也表现出色。作者最终开源了代码和模型，邀请社区参与和验证这些研究成果。

https://zhuanlan.zhihu.com/p/704782858?utm_psn=1788240484877074432

Chameleon和Florence-2

Chameleon 模型采用前融合技术，通过单一 tokenizer 同时处理视觉和语言信息，实现端到端的多模态学习。它使用 VQGAN 进行图像编码，将图像转换为离散的 tokens，并与文本 tokens 一起输入到 Transformer 模型中。这种方法使得不同模态的特征能够在同一表征空间内被有效地关联，提高了模型学习的效率。

Florence-2 模型虽然采用后融合方式，但在多 CV 任务上展现了卓越的性能，能够处理包括 VQA、视觉地面化、OCR 等多种任务。它的模型规模较小，但通过多任务学习，取得了与大型模型相当的效果。Florence-2 的成功表明，多模态模型在处理复杂的计算机视觉任务时，不仅要关注前融合技术，还要优化模型结构和训练方法，以适应实际应用的需求。

https://zhuanlan.zhihu.com/p/704822410?utm_psn=1788240913669165056

Agent Attention：集成 Softmax 和 Linear 注意力机制

注意力机制 (Attention module) 是 Transformers 中的关键组成部分。虽然全局的注意力机制具有很高的表征能力，但其计算成本较大，限制了其在各种场景下的适用性。本文提出一种新的注意力范式 Agent Attention，目的在计算效率和表征能力之间取得良好的平衡。具体而言，Agent Attention 表示为四元组 (𝑄,𝐴,𝐾,𝑉) ，在传统的注意力模块中引入了一组额外的 Agent token 𝐴 。Agent token 首先充当 Query token 𝑄 的代理来聚合来自 𝐾 和 𝑉 的信息，然后将信息广播回 𝑄。鉴于 Agent token 的数量可以设计为远小于 Query token 的数量，代理注意力明显比 Softmax 注意力更有效，同时保留了全局上下文建模能力。

有趣的是，本文展示了 Agent attention 等效于 Linear attention 的广义形式。因此，代理注意力无缝集成了强大的 Softmax attention 和高效的 Linear attention。

作者通过大量实验表明，Agent attention 在各种视觉任务中证明了有效性，包括图像分类、目标检测、语义分割和图像生成。而且，代理注意力在高分辨率场景中表现出显着的性能，这得益于其线性注意力性质。例如，当应用于 Stable Diffusion 时，Agent attention 会加速生成并显着提高图像生成质量，且无需任何额外的训练。

https://zhuanlan.zhihu.com/p/701960851?utm_psn=1786088743180066817

昇腾AI原生创新算子挑战赛S1——算子优化详解

昇腾 AI 原生创新算子挑战赛 S1是一个旨在优化 AI 算子性能的竞赛。竞赛分为初赛和决赛两个阶段，通过对算子进行原生优化，提高其在昇腾处理器上的执行效率。初赛要求参赛者对指定算子进行优化，并通过评测系统评估性能。评测标准包括性能提升比例和最终性能排名。决赛则是邀请初赛中表现最佳的选手进行线下深度优化比赛。竞赛提供了算子优化的学习资源，包括基础知识、实践技巧和高级优化方法。重点强调技术细节，如算子内存访问优化、计算密集型操作简化、并行化处理等，以实现更高效的 AI 计算。此外，竞赛鼓励参赛者探索创新的优化策略，以期在未来的 AI 领域中实现更大的性能突破。

https://zhuanlan.zhihu.com/p/701340321?utm_psn=1788241558862188544

华泰 | 电子：AI大模型需要什么样的硬件？

AI 大模型技术的快速发展对硬件产品提出了新的要求。在技术细节上，AI 大模型需要更高的算力支持，这导致了 SoC 中 NPU 算力的提升和存储容量的扩展。例如，AI PC 的推出需要具备 NPU 提供的边缘算力能力，以及内置大模型的能力。在软件层面，AI 大模型的应用推动了系统架构和应用方面的匹配，如 AI 智能手机的智能体开发平台和专属智能体的提供。此外，AI 大模型在具身智能、自动驾驶和人形机器人等领域的应用，涉及到感知、决策和控制等多个环节的技术细节，这些细节包括但不限于大模型的多模态能力、运动控制算法的优化以及硬件级的安全芯片的使用。在云计算方面，AI 大模型的部署和服务化，如 MaaS 模式，也依赖于高效的算力和数据处理技术。