大模型日报(6月25日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月25日 学术篇)

学习

01

RAG 工业落地方案框架(Qanything、RAGFlow、FastGPT、智谱RAG)细节比对

本文详细比较了四种 RAG 工业落地方案 ——Qanything、RAGFlow、FastGPT 和智谱 RAG,重点分析了它们在知识处理、召回模块、重排模块、大模型处理、Web 服务和切词处理等方面的具体实现。Qanything 在 rerank 模块设计上表现出色;RAGFlow 在文档处理方面优势明显;FastGPT 提供了高度动态配置的模块;智谱 RAG 则在领域数据上的模型微调上有着特殊的优势。每个方案都有其独特的技术细节和适用场景,强调了在实际应用中,选择合适的技术实现以及对细节的精细化处理对于项目的成功至关重要。
大模型日报(6月25日 学术篇)https://zhuanlan.zhihu.com/p/704828374?utm_psn=1788240074799992833
02

用强化学习解决现实问题:Stochasticity、Scale、GAE与Curriculum Learning

文章探讨了强化学习在现实问题解决中的应用,特别是如何处理随机性(Stochasticity)和规模(Scale)问题。作者通过实例说明了在手机操作系统中完成查资料和购物任务的 RL 模型,强调了显式建模随机性的重要性。为了应对数据需求,开发了多机分布式并行脚本以大规模收集数据。此外,文章提出了使用任务完成情况作为整体轨迹的奖励,而非单步奖励,以简化评估过程。
在模型选择上,作者使用了参数量为 1.5B 的小模型,并通过与 GPT-4 的比较展示了其性能优势。文章还提供了 base 模型选择的建议,即选择性能不差且大小适中的模型,以便于训练。算法方面,提出了 Filtered AWR 和 GAE 的简化版本,以及 Automatic Curriculum Learning 策略,这些都是为了更好地适应现实问题的复杂性。实验结果显示,所提出的方法在性能上超越了现有的 agent,如 GPT-4 和 Gemini,并在相同数据集上也表现出色。作者最终开源了代码和模型,邀请社区参与和验证这些研究成果。
大模型日报(6月25日 学术篇)https://zhuanlan.zhihu.com/p/704782858?utm_psn=1788240484877074432
03

Chameleon和Florence-2

Chameleon 模型采用前融合技术,通过单一 tokenizer 同时处理视觉和语言信息,实现端到端的多模态学习。它使用 VQGAN 进行图像编码,将图像转换为离散的 tokens,并与文本 tokens 一起输入到 Transformer 模型中。这种方法使得不同模态的特征能够在同一表征空间内被有效地关联,提高了模型学习的效率。
Florence-2 模型虽然采用后融合方式,但在多 CV 任务上展现了卓越的性能,能够处理包括 VQA、视觉地面化、OCR 等多种任务。它的模型规模较小,但通过多任务学习,取得了与大型模型相当的效果。Florence-2 的成功表明,多模态模型在处理复杂的计算机视觉任务时,不仅要关注前融合技术,还要优化模型结构和训练方法,以适应实际应用的需求。
大模型日报(6月25日 学术篇)https://zhuanlan.zhihu.com/p/704822410?utm_psn=1788240913669165056
04

Agent Attention:集成 Softmax 和 Linear 注意力机制

注意力机制 (Attention module) 是 Transformers 中的关键组成部分。虽然全局的注意力机制具有很高的表征能力,但其计算成本较大,限制了其在各种场景下的适用性。本文提出一种新的注意力范式 Agent Attention,目的在计算效率和表征能力之间取得良好的平衡。具体而言,Agent Attention 表示为四元组 (𝑄,𝐴,𝐾,𝑉) ,在传统的注意力模块中引入了一组额外的 Agent token 𝐴 。Agent token 首先充当 Query token 𝑄 的代理来聚合来自 𝐾 和 𝑉 的信息,然后将信息广播回 𝑄。鉴于 Agent token 的数量可以设计为远小于 Query token 的数量,代理注意力明显比 Softmax 注意力更有效,同时保留了全局上下文建模能力。
有趣的是,本文展示了 Agent attention 等效于 Linear attention 的广义形式。因此,代理注意力无缝集成了强大的 Softmax attention 和高效的 Linear attention。
作者通过大量实验表明,Agent attention 在各种视觉任务中证明了有效性,包括图像分类、目标检测、语义分割和图像生成。而且,代理注意力在高分辨率场景中表现出显着的性能,这得益于其线性注意力性质。例如,当应用于 Stable Diffusion 时,Agent attention 会加速生成并显着提高图像生成质量,且无需任何额外的训练。
大模型日报(6月25日 学术篇)https://zhuanlan.zhihu.com/p/701960851?utm_psn=1786088743180066817
05

昇腾AI原生创新算子挑战赛S1——算子优化详解

昇腾 AI 原生创新算子挑战赛 S1是一个旨在优化 AI 算子性能的竞赛。竞赛分为初赛和决赛两个阶段,通过对算子进行原生优化,提高其在昇腾处理器上的执行效率。初赛要求参赛者对指定算子进行优化,并通过评测系统评估性能。评测标准包括性能提升比例和最终性能排名。决赛则是邀请初赛中表现最佳的选手进行线下深度优化比赛。竞赛提供了算子优化的学习资源,包括基础知识、实践技巧和高级优化方法。重点强调技术细节,如算子内存访问优化、计算密集型操作简化、并行化处理等,以实现更高效的 AI 计算。此外,竞赛鼓励参赛者探索创新的优化策略,以期在未来的 AI 领域中实现更大的性能突破。
大模型日报(6月25日 学术篇)https://zhuanlan.zhihu.com/p/701340321?utm_psn=1788241558862188544
06

华泰 | 电子:AI大模型需要什么样的硬件?

AI 大模型技术的快速发展对硬件产品提出了新的要求。在技术细节上,AI 大模型需要更高的算力支持,这导致了 SoC 中 NPU 算力的提升和存储容量的扩展。例如,AI PC 的推出需要具备 NPU 提供的边缘算力能力,以及内置大模型的能力。在软件层面,AI 大模型的应用推动了系统架构和应用方面的匹配,如 AI 智能手机的智能体开发平台和专属智能体的提供。此外,AI 大模型在具身智能、自动驾驶和人形机器人等领域的应用,涉及到感知、决策和控制等多个环节的技术细节,这些细节包括但不限于大模型的多模态能力、运动控制算法的优化以及硬件级的安全芯片的使用。在云计算方面,AI 大模型的部署和服务化,如 MaaS 模式,也依赖于高效的算力和数据处理技术。
大模型日报(6月25日 学术篇)https://mp.weixin.qq.com/s/3sbi_YueMM0z03OXOKcVgQ
HuggingFace&Github

01

Maestro

Maestro是一个Python框架,可以利用Anthropic的AI模型(如Opus和Haiku)来协调和执行复杂的任务。它可以将目标任务分解为更小的可管理子任务,利用子模型独立执行这些子任务,然后将结果汇总优化为最终输出。这种AI辅助的任务分解和执行方法可以提高复杂目标的完成效率和质量。
https://github.com/Doriandarko/maestro
02

DiffSynth-Studio

DiffSynth-Studio是一个基于扩散模型的视频合成框架,提供了多种创新性功能,包括视频合成、去闪烁、卡通风格渲染等。它重构了文本编码器、UNet、VAE等核心架构,在保持与开源社区模型兼容的同时,也大幅提高了计算性能。
DiffSynth-Studio支持多种先进的扩散模型,如Stable Diffusion、ControlNet、Stable Video Diffusion等,并且还提出了ExVideo等新技术来增强视频生成的能力。

大模型日报(6月25日 学术篇)https://github.com/modelscope/DiffSynth-Studio

推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14511.html

Like (0)
Previous 2024-06-25 11:00
Next 2024-06-25 20:02

相关推荐

  • 大模型日报(7月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-29
    232
  • #文献阅读# 五步让你提高文献阅读的掌控感

    大量的文献阅读常常会让人迷失,对于某些篇幅较大的文章,尤其是其中还涵盖了一些陌生概念的内容,阅读的时间一久,读者就容易进入精神涣散的状态。 文献读完后依然不知道文章质量好不好,与我…

    2022-08-16
    170
  • ChatGPT九步完成高质量Grant Proposal!

    ChatGPT是一款强大的人工智能语言模型,通过对大量文本数据的训练,可以生成高质量的文本内容。 如果您正在准备Grant Proposal,不妨用ChatGPT试试以下九步完成高…

    2023-03-27
    93
  • 大模型日报(5月9日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-09
    149
  • 关于ChatGPT写论文, 近期私信回复都在这~

    近期的很多朋友私信给我各类问题,在下无法一一回复,还望见谅~ 考虑到一般也就晚上有整块的时间能够处理,因此,就在这里统一答复大家,希望对大家能有所帮助! 1. 林同学等 关于Cha…

    2023-04-18
    190
  • 实战Elicit, 让你惊艳的AI学术研究工作神器(三)

    Systematic Literature Review绝对是每个学术研究工作者的必经之路,顺利完成一篇SLR才能代表你真正了解该领域,成为该领域的专家,并且知道在该领域有哪些Ga…

    2023-06-06
    105
  • 大模型日报(8月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-30
    266
  • 大模型日报(4月10日 学术篇)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 鹰与金翅雀:使用矩阵值状态和动态…

    2024-04-10
    197
  • 几个有趣的机器学习和深度学习可视化Web工具

    主要用途,理解数学公式的同时,通过这几类可视化工具,可以加深对机器学习、深度学习、概率分布知识的理解和应用。 📌Four interactive tools to learn ma…

    2022-11-13
    169
  • #文章写作 作为新手该如何克服Paper写作的焦虑感?这十点你要知道

    这两天和导师沟通文章写作时遇到的一些问题,一是文章没有达到预期效果,二是时间也超过了原计划,再加上导师忙碌,无法时刻触达并解决具体的问题,焦虑感顿时萌生。 于是与另一位同行师姐沟通…

    2022-07-28
    101