大模型日报（5月11~12日学术篇）

特别活动

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

新兴的AI AgentOps景观：建设者的视角

Prosus AI 团队分享了其在构建 AI 代理系统方面的经验，强调了代理系统的核心组成部分，包括：强大的大型语言模型（LLM）用于理解用户意图和制定行动计划；工具集成用于增强 LLM 的能力，如网络搜索、文档检索、代码执行等；记忆系统包括长期记忆（数据库）和短期记忆（请求特定信息）；以及反思与自我批评能力，使代理能够识别并纠正错误，重新优先级排序。

文章指出，AI 代理系统能够执行多跳任务，如购买运动鞋、分析年报、提供穿戴式设备市场概览等，这些任务远比单轮聊天机器人更为复杂。在编码任务上，带有代理能力的 GPT3.5 甚至能够超越更强大的 GPT-4 模型。

然而，构建有效的 AI 代理系统仍然充满挑战，主要集中在技术成熟度、系统可扩展性以及工具和集成方面。为了克服这些挑战，Prosus 提出了 AgentOps 概念，旨在通过提供一套预构建的工具和能力，简化代理系统的构建和扩展过程。

通过专注于特定任务或行业的代理系统，如数据分析领域的 Toqan 代理，可以提高答案的准确率，从而为用户提供更精确的信息。未来，AI 代理的发展将继续推动技术创新，并在市场研究、数据可视化、在线购物助手等领域得到广泛应用。

https://www.prosus.com/news-insights/group-updates/2024/ai-agentops-landscape

原理&图解vLLM Automatic Prefix Cache(RadixAttention): 首Token时延优化

文章深入探讨了vLLM中的Automatic Prefix Caching技术，该技术通过Hash RadixAttention算法优化了长系统提示和多轮对话场景下的首Token时延。文章详细分析了Radix Tree的动态变化、vLLM中Prefix Caching的实现、以及如何通过hash码确保缓存块的唯一性和上下文的正确性。此外，还讨论了在Generate阶段处理未知token_ids的策略、Prefix + Generated KV Caching的优势、以及在多轮对话中的应用。最后，文章提供了在vLLM中启用Prefix Caching的方法，并对比了其他相关优化论文，强调了vLLM实现的优越性。

https://zhuanlan.zhihu.com/p/693556044?utm_psn=1772536403207225344

Flash Attention (GPT2 implement)

文章讨论了如何将Flash Attention（一种注意力机制的优化方法）应用于GPT2模型以提高训练速度。作者首先介绍了Flash Attention 2的安装过程，然后详细说明了在GPT2模型的forward方法中如何修改以支持Flash Attention，包括对attention_mask处理的调整以及如何封装_flash_attention_forward方法。文章还探讨了_upad_input函数的实现，以及如何使用flash_attn_varlen_func和pad_input函数处理变长序列。最后，作者提供了一个测试Flash Attention正确性的函数，并分享了初步测试结果，指出当前Flash Attention在GPT2上可能存在问题，因为引入Flash Attention后训练loss与不使用时有较大差异。

https://zhuanlan.zhihu.com/p/685695553?utm_psn=1772229392350957568

StarCoder2-Instruct: 完全透明和可自我对齐的代码生成

StarCoder2-15B-Instruct-v0.1 是一个大型代码生成模型，它通过自我对齐和完全透明的训练流程实现指令微调，无需人类注释或专有LLMs数据。该模型在HumanEval基准测试上得分72.6，超过CodeLlama-70B-Instruct的72.0分。训练过程包括从The Stack v1中提取种子函数、生成多样化代码指令、执行自我验证生成响应，并在沙箱环境中测试。最终，模型使用通过测试的响应进行微调，展现了在自我生成数据上的有效学习能力。该模型的开源性质为代码生成领域提供了新的研究方向。

https://mp.weixin.qq.com/s/g2VvvKCy577XdYQKEmAXzw

PyTorch加速LLAMA3技术详解

本文介绍了如何利用优化的Triton FP8 GEMM（通用矩阵-矩阵乘法）核心TK-GEMM，通过使用SplitK并行化实现了对LLAMA3-70B推理问题规模的加速。对于小批量大小的推理，TK-GEMM在NVIDIA H100 GPU上的表现比基本Triton matmul实现提高了高达1.94倍，比cuBLAS FP8提高了1.87倍，比cuBLAS FP16提高了1.71倍。

在这篇博文中，我们将讨论如何设计一个使用Triton进行FP8推理优化的内核，并对Lama3-70B推理进行调优。我们还会涵盖FP8（8位浮点数），这是由Hopper一代GPU（SM90）支持的新数据类型，以及Triton支持的关键SM90特性，以及我们如何修改并行化以最大化内存吞吐量。

https://deploy-preview-1596–pytorch-dot-org-preview.netlify.app/blog/accelerating-llama3/

[CUDA 学习笔记] GEMM 优化: 双缓冲 (Prefetch) 和 Bank Conflict 解决

文章详细介绍了如何通过双缓冲(Prefetch)和解决Bank Conflict来优化CUDA矩阵乘法内核(GEMM)，以达到接近cuBLAS的性能。双缓冲通过读写分离，利用指令级并行掩盖访存延迟。Bank Conflict的解决涉及对共享内存(SMEM)的访问模式调整，通过warp分片和特定的线程排布避免冲突。文章还讨论了不同优化策略和实现技巧，提供了相关代码示例和性能分析。

https://zhuanlan.zhihu.com/p/696844342?utm_psn=1772215247459176448

HuggingFace&Github

Markdowner

Markdowner 是一款免费开源的工具，它能够将任何网站快速地转换为就绪的 Markdown 格式数据，为基于 LLM 的应用程序提供结构化且易于查询的内容。它具有自动抓取网页、使用 LLM 过滤无用信息、提供详细 Markdown 输出等功能，可方便开发者部署到自己的基础设施上使用，为构建 AI 应用程序提供有价值的数据支持。

https://github.com/Dhravya/markdowner

Crawl4AI

Crawl4AI 是一个强大、免费的网页爬取服务，旨在从网页中提取有用的信息，并以 LLM 和 AI 应用程序友好的格式呈现，包括 JSON、清洁 HTML 和 Markdown。它支持高效的多 URL 爬取、媒体标签替换和灵活的配置选项，是开发基于网页数据的 AI 项目的理想工具。

https://github.com/unclecode/crawl4ai

Rill Flow

Rill Flow 是一种高性能、可扩展的分布式工作流编排服务，支持每天执行数千万个任务，任务执行延迟小于100毫秒。它支持异构分布式系统的编排和调度，提供可视化的流程编排和插件访问功能，支持云原生容器部署和云原生函数编排，还可以快速集成 LLM 模型服务，为用户提供灵活、高效的工作流管理能力。Rill Flow 采用开源许可，通过 Docker-Compose 可以快速在本地部署和测试，为开发者提供了一个功能丰富、易用的工作流编排解决方案。

https://github.com/weibocom/rill-flow

Agentcloud

Agentcloud 是一个开源平台，可以帮助公司构建和部署私有的 LLM 聊天应用程序，如 ChatGPT。它提供了一个强大的架构，包括一个 Python 后端应用程序 (Agent Backend)、一个基于 Next.js 的 Web 应用程序 (Webapp)以及一个基于 Rust 的矢量数据库代理 (Vector Proxy)。通过 Agentcloud 企业可以快速、安全地与内部数据交互，构建出定制化的聊天机器人和自动化应用程序。

https://github.com/rnadigital/agentcloud

推荐阅读

原创文章，作者：LLM Space，如若转载，请注明出处：https://www.agent-universe.cn/2024/05/15475.html