大模型日报(5月11~12日 学术篇)

特别活动

大模型日报(5月11~12日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月11~12日 学术篇)

学习

01

新兴的AI AgentOps景观:建设者的视角

Prosus AI 团队分享了其在构建 AI 代理系统方面的经验,强调了代理系统的核心组成部分,包括: 强大的大型语言模型(LLM) 用于理解用户意图和制定行动计划; 工具集成 用于增强 LLM 的能力,如网络搜索、文档检索、代码执行等; 记忆系统 包括长期记忆(数据库)和短期记忆(请求特定信息);以及 反思与自我批评 能力,使代理能够识别并纠正错误,重新优先级排序。
文章指出,AI 代理系统能够执行多跳任务,如购买运动鞋、分析年报、提供穿戴式设备市场概览等,这些任务远比单轮聊天机器人更为复杂。在编码任务上,带有代理能力的 GPT3.5 甚至能够超越更强大的 GPT-4 模型。
然而,构建有效的 AI 代理系统仍然充满挑战,主要集中在技术成熟度、系统可扩展性以及工具和集成方面。为了克服这些挑战,Prosus 提出了 AgentOps 概念,旨在通过提供一套预构建的工具和能力,简化代理系统的构建和扩展过程。
通过专注于特定任务或行业的代理系统,如数据分析领域的 Toqan 代理,可以提高答案的准确率,从而为用户提供更精确的信息。未来,AI 代理的发展将继续推动技术创新,并在市场研究、数据可视化、在线购物助手等领域得到广泛应用。
大模型日报(5月11~12日 学术篇)https://www.prosus.com/news-insights/group-updates/2024/ai-agentops-landscape
02

原理&图解vLLM Automatic Prefix Cache(RadixAttention): 首Token时延优化

文章深入探讨了vLLM中的Automatic Prefix Caching技术,该技术通过Hash RadixAttention算法优化了长系统提示和多轮对话场景下的首Token时延。文章详细分析了Radix Tree的动态变化、vLLM中Prefix Caching的实现、以及如何通过hash码确保缓存块的唯一性和上下文的正确性。此外,还讨论了在Generate阶段处理未知token_ids的策略、Prefix + Generated KV Caching的优势、以及在多轮对话中的应用。最后,文章提供了在vLLM中启用Prefix Caching的方法,并对比了其他相关优化论文,强调了vLLM实现的优越性。
大模型日报(5月11~12日 学术篇)https://zhuanlan.zhihu.com/p/693556044?utm_psn=1772536403207225344
03

Flash Attention (GPT2 implement)

文章讨论了如何将Flash Attention(一种注意力机制的优化方法)应用于GPT2模型以提高训练速度。作者首先介绍了Flash Attention 2的安装过程,然后详细说明了在GPT2模型的forward方法中如何修改以支持Flash Attention,包括对attention_mask处理的调整以及如何封装_flash_attention_forward方法。文章还探讨了_upad_input函数的实现,以及如何使用flash_attn_varlen_funcpad_input函数处理变长序列。最后,作者提供了一个测试Flash Attention正确性的函数,并分享了初步测试结果,指出当前Flash Attention在GPT2上可能存在问题,因为引入Flash Attention后训练loss与不使用时有较大差异。
大模型日报(5月11~12日 学术篇)https://zhuanlan.zhihu.com/p/685695553?utm_psn=1772229392350957568
04

StarCoder2-Instruct: 完全透明和可自我对齐的代码生成

StarCoder2-15B-Instruct-v0.1 是一个大型代码生成模型,它通过自我对齐和完全透明的训练流程实现指令微调,无需人类注释或专有LLMs数据。该模型在HumanEval基准测试上得分72.6,超过CodeLlama-70B-Instruct的72.0分。训练过程包括从The Stack v1中提取种子函数、生成多样化代码指令、执行自我验证生成响应,并在沙箱环境中测试。最终,模型使用通过测试的响应进行微调,展现了在自我生成数据上的有效学习能力。该模型的开源性质为代码生成领域提供了新的研究方向。
大模型日报(5月11~12日 学术篇)https://mp.weixin.qq.com/s/g2VvvKCy577XdYQKEmAXzw
05

PyTorch加速LLAMA3技术详解

本文介绍了如何利用优化的Triton FP8 GEMM(通用矩阵-矩阵乘法)核心TK-GEMM,通过使用SplitK并行化实现了对LLAMA3-70B推理问题规模的加速。对于小批量大小的推理,TK-GEMM在NVIDIA H100 GPU上的表现比基本Triton matmul实现提高了高达1.94倍,比cuBLAS FP8提高了1.87倍,比cuBLAS FP16提高了1.71倍。
在这篇博文中,我们将讨论如何设计一个使用Triton进行FP8推理优化的内核,并对Lama3-70B推理进行调优。我们还会涵盖FP8(8位浮点数),这是由Hopper一代GPU(SM90)支持的新数据类型,以及Triton支持的关键SM90特性,以及我们如何修改并行化以最大化内存吞吐量。
大模型日报(5月11~12日 学术篇)https://deploy-preview-1596–pytorch-dot-org-preview.netlify.app/blog/accelerating-llama3/
06

[CUDA 学习笔记] GEMM 优化: 双缓冲 (Prefetch) 和 Bank Conflict 解决

文章详细介绍了如何通过双缓冲(Prefetch)和解决Bank Conflict来优化CUDA矩阵乘法内核(GEMM),以达到接近cuBLAS的性能。双缓冲通过读写分离,利用指令级并行掩盖访存延迟。Bank Conflict的解决涉及对共享内存(SMEM)的访问模式调整,通过warp分片和特定的线程排布避免冲突。文章还讨论了不同优化策略和实现技巧,提供了相关代码示例和性能分析。
大模型日报(5月11~12日 学术篇)https://zhuanlan.zhihu.com/p/696844342?utm_psn=1772215247459176448
HuggingFace&Github

01

Markdowner

Markdowner 是一款免费开源的工具,它能够将任何网站快速地转换为就绪的 Markdown 格式数据,为基于 LLM 的应用程序提供结构化且易于查询的内容。它具有自动抓取网页、使用 LLM 过滤无用信息、提供详细 Markdown 输出等功能,可方便开发者部署到自己的基础设施上使用,为构建 AI 应用程序提供有价值的数据支持。
大模型日报(5月11~12日 学术篇)https://github.com/Dhravya/markdowner
02

Crawl4AI

Crawl4AI 是一个强大、免费的网页爬取服务,旨在从网页中提取有用的信息,并以 LLM 和 AI 应用程序友好的格式呈现,包括 JSON、清洁 HTML 和 Markdown。它支持高效的多 URL 爬取、媒体标签替换和灵活的配置选项,是开发基于网页数据的 AI 项目的理想工具。
https://github.com/unclecode/crawl4ai
03

Rill Flow

Rill Flow 是一种高性能、可扩展的分布式工作流编排服务,支持每天执行数千万个任务,任务执行延迟小于100毫秒。它支持异构分布式系统的编排和调度,提供可视化的流程编排和插件访问功能,支持云原生容器部署和云原生函数编排,还可以快速集成 LLM 模型服务,为用户提供灵活、高效的工作流管理能力。Rill Flow 采用开源许可,通过 Docker-Compose 可以快速在本地部署和测试,为开发者提供了一个功能丰富、易用的工作流编排解决方案。
https://github.com/weibocom/rill-flow
04

Agentcloud

Agentcloud 是一个开源平台,可以帮助公司构建和部署私有的 LLM 聊天应用程序,如 ChatGPT。它提供了一个强大的架构,包括一个 Python 后端应用程序 (Agent Backend)、一个基于 Next.js 的 Web 应用程序 (Webapp)以及一个基于 Rust 的矢量数据库代理 (Vector Proxy)。通过 Agentcloud 企业可以快速、安全地与内部数据交互,构建出定制化的聊天机器人和自动化应用程序。
https://github.com/rnadigital/agentcloud
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15475.html

Like (0)
Previous 2024-05-11 23:28
Next 2024-05-13 23:57

相关推荐

  • 大模型日报(5月30日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-30
    143
  • 大模型日报(7月1日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-01
    209
  • 大模型日报(6月28日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-28
    158
  • 大模型日报(8月17~18日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-18
    239
  • Visual ChatGPT图像生成神器,手把手带你玩!

    微软最近推出了一种名为“Visual ChatGPT”的新模型,它结合了不同类型的视觉基础模型 (VFM),包括 Transformers、ControlNet 和 Stable …

    2023-03-13
    120
  • 大模型日报(5月16日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-16
    139
  • AI学术 | Connected Papers 研究主题在手,文献综述随你走!

    学术AI 工具版图中的又一利器,Connected Papers!只要你的研究主题在手,整个研究文献网络随你走! 你也许碰到过如下窘境: 好容易找到了一大堆主题相关的文献,找不到主…

    2023-07-08
    206
  • 大模型日报(7月16日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-16
    233
  • 我动手尝试了TruthGPT,和ChatGPT相比…

    原来,伊隆马斯克大肆宣传的TruthGPT已经可以试用了!? 昨天发了一篇文章,《TruthGPT即将横空出世,ChatGPT害怕吗?》有好几个朋友私信给我说觉得很玄乎,实际上我在…

    2023-04-20
    199
  • Google Colab中的AI Monica真的无敌了,轻松编写和调优程序!

    这两天刚好在调程序中,无意中用到了Google Monica,真的让人惊叹不已! 先给结论:编写、调优程序,解释运行结果基本无障碍! Colab + Monica的流畅和无缝程度,…

    2023-06-21
    195