大模型日报(5月8日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月8日 学术篇)

论文

01

xLSTM: 扩展长短期记忆网络

在上世纪90年代,长短期记忆(LSTM)的核心思想 – 恒定误差旋转木马和门控被引入。自那时起,LSTMs经受住时间的考验,贡献了许多深度学习成功案例,特别是构成了第一个大型语言模型(LLM)。然而,具有可并行化自注意力核心的Transformer技术的出现标志着一个新时代的曙光,在规模上超越了LSTMs。我们现在提出一个简单的问题:当将LSTMs扩展到数十亿个参数时,在利用现代LLMs的最新技术但缓解已知限制的同时,我们在语言建模方面能走多远?首先,我们引入了具有适当标准化和稳定技术的指数门控制度。其次,我们修改了LSTM存储结构,得到了:(i)具有标量存储、标量更新和新存储混合的sLSTM,(ii)具有完全可并行化的矩阵存储和协方差更新规则的mLSTM。将这些LSTM扩展集成到残差块主干中产生了xLSTM块,这些块然后被残留堆叠到xLSTM架构中。指数门控制度和修改后的存储结构提升了xLSTM的能力,在性能和扩展性上都表现得比最先进的Transformer和状态空间模型好。
大模型日报(5月8日 学术篇)http://arxiv.org/abs/2405.04517v1
02

Granite 代码模型:用于代码智能的开放基础模型家族

大型语言模型(LLM)在代码上的训练正在彻底改变软件开发过程。代码LLM越来越多地被整合到软件开发环境中,以提高人类程序员的生产力,基于LLM的智能体开始展现处理复杂任务的潜力。我们引入了一系列仅解码器的Granite代码模型,用116种编程语言编写的代码进行训练。Granite代码模型系列由3到34亿参数的模型组成,适用于各种应用,从复杂应用现代化任务到内存受限的设备使用案例。在广泛的任务集上评估表明,Granite代码模型在现有开源代码LLM中始终达到最先进的性能。Granite代码模型系列针对企业软件开发工作流程进行优化,在各种编码任务(如代码生成、修复和解释)中表现良好,是一个多才多艺的代码模型。我们以Apache 2.0许可证发布我们的所有Granite代码模型,供研究和商业使用。
大模型日报(5月8日 学术篇)http://arxiv.org/abs/2405.04324v1
03

NaturalCodeBench:研究HumanEval和自然用户提示中的编码能力不匹配

大语言模型(LLM)已经表现出很强的能力,能够生成用于生产活动的代码。然而,目前用于代码合成的基准,如HumanEval、MBPP和DS-1000,主要面向算法和数据科学入门任务,无法满足现实世界编码中普遍存在的挑战性要求。为了填补这一空白,我们提出了NaturalCodeBench(NCB),一个旨在反映真实编码任务中复杂性和多样性的具有挑战性的代码基准。NCB包含402个高质量问题,精心从在线编码服务的自然用户查询中选择,涵盖Python和Java两种语言,涵盖6个不同领域。鉴于创建真实查询的测试用例非常困难,我们还引入了一个半自动化流水线来增强测试用例构建的效率。与手动解决方案相比,它的效率提高了4倍以上。我们对39个LLM的系统实验发现,在NCB上,即使具有接近HumanEval分数的模型之间的性能差距仍可能很大,表明缺乏对实际代码合成场景的关注或对HumanEval的过度优化。另一方面,即使是表现最佳的GPT-4在NCB上仍然远未令人满意。评估工具包和开发集可在https://github.com/THUDM/NaturalCodeBench 上获得。
大模型日报(5月8日 学术篇)http://arxiv.org/abs/2405.04520v1
04

QServe: W4A8KV4量化和系统共同设计,提高高效LLM服务

量化可以加速大型语言模型(LLM)的推理。研究社区正在积极探索比INT8量化更低精度,如INT4。然而,目前最先进的INT4量化技术只能加速低批量、边缘LLM推理,在大批量、基于云的LLM服务中无法实现性能增益。我们揭示一个关键问题:现有的INT4量化方法在GPU上解量化权重或部分和时存在显著的运行时开销(20-90%)。为了解决这一挑战,我们介绍了QoQ,一个具有4位权重、8位激活和4位KV缓存的W4A8KV4量化算法。QoQ代表拉丁文中的4-8-4。QoQ是由QServe推理库实现的,可实现测得加速。QServe的关键见解是,在GPU上的LLM服务的效率受到低吞吐CUDA核心操作的重大影响。基于这一见解,在QoQ算法中,我们引入了渐进量化,可以降低W4A8 GEMM中的解量化开销。此外,我们开发了SmoothAttention来有效减少4位KV量化带来的精度降低。在QServe系统中,我们进行计算感知的权重重新排序,并利用寄存器级并行性来减少解量化延迟。我们还将融合的注意力限定在内存上,利用KV4量化带来的性能增益。结果,与TensorRT-LLM相比,QServe在A100上将Llama-3-8B的最大可实现服务吞吐量提高了1.2倍,在L40S上提高了1.4倍;在A100上,Qwen1.5-72B提高了2.4倍,在L40S上提高了3.5倍。值得注意的是,L40S GPU上的QServe甚至比A100上的TensorRT-LLM实现更高的吞吐量。因此,QServe有效地将LLM服务的成本降低了3倍。代码可在https://github.com/mit-han-lab/qserve获取。
大模型日报(5月8日 学术篇)http://arxiv.org/abs/2405.04532v1
05

vAttention: 为大语言模型提供动态内存管理,无需分页注意力

高效使用GPU内存对于高吞吐量的LLM推断至关重要。以往的系统预留内存用于KV缓存,导致由于内部碎片而造成容量浪费。受基于操作系统的虚拟内存系统启发,vLLM提出了PagedAttention,实现了对KV缓存的动态内存分配。这种方法消除了碎片,使得支持更大批次大小的高吞吐量LLM服务成为可能。然而,为了能够动态分配物理内存,PagedAttention将KV缓存的布局从连续的虚拟内存更改为非连续虚拟内存。这种改变需要重写注意力核以支持分页,并要求服务框架实现内存管理器。因此,PagedAttention模型导致软件复杂性、可移植性问题、冗余和效率低下。
在本文中,我们提出了vAttention进行动态KV缓存内存管理。与PagedAttention相比,vAttention保留了KV缓存在连续的虚拟内存中,并利用低级系统支持的需求分页来实现按需物理内存分配,这种支持已经存在。因此,vAttention减轻了注意力核开发人员明确支持分页的负担,并避免了在服务框架中重新实现内存管理。我们证明,vAttention使得各种注意力核的实现能够无缝进行动态内存管理。vAttention生成的token速度比vLLM快高达1.97倍,处理输入提示的速度比PagedAttention的FlashAttention和FlashInfer变体快3.92倍和1.45倍。
大模型日报(5月8日 学术篇)http://arxiv.org/abs/2405.04437v1
HuggingFace&Github

01

StoryDiffusion

StoryDiffusion 是一个新的框架,通过创新的自注意力计算方式和语义时间运动预测模块,能够从文本描述生成既有高度一致的图像序列,又有平滑过渡的视频内容,为视觉故事生成领域带来了开创性的探索,值得进一步研究。
大模型日报(5月8日 学术篇)https://github.com/HVision-NKU/StoryDiffusion
02

JARVIS

模仿《钢铁侠》“贾维斯”的语音助手,可以根据用户给出的文本做出语音答复。
大模型日报(5月8日 学术篇)https://huggingface.co/spaces/KingNish/JARVIS
03

ScrapeGraphAI

Scrapegraph-ai 是一个基于 Python 的 web 抓取库,它使用了 LLM (大语言模型) 和直接图形逻辑来创建针对网站、文档和 XML 文件的抓取管道。这个库可以帮助你轻松地提取所需的信息,用户只需告诉它你想要提取什么信息,它就会为你完成这项任务。
https://github.com/VinciGit00/Scrapegraph-ai
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15557.html

Like (0)
Previous 2024-05-07 19:56
Next 2024-05-09 11:29

相关推荐

  • 大模型日报(7月10日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-10
    271
  • 大模型日报(8月2日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-02
    271
  • 关于ChatGPT写论文, 近期私信回复都在这~

    近期的很多朋友私信给我各类问题,在下无法一一回复,还望见谅~ 考虑到一般也就晚上有整块的时间能够处理,因此,就在这里统一答复大家,希望对大家能有所帮助! 1. 林同学等 关于Cha…

    2023-04-18
    206
  • AI学术 | Covidence 完成一篇系统文献综述(SLR),平均时间减少71个小时!

    完成一篇系统文献综述(SLR)是一个体系化的工作,总是绕不开搜索、过滤、阅读、标记、交叉评审等各种环节,而Covidence能够让完成一篇SLR减少35%的工作量,并且减少71个小…

    2023-07-05
    161
  • 大模型日报(5月25~26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-05-26
    174
  • 七步搞定ChatGPT写论文之实践篇一

    以下以一篇关于机器学习在计算机网络安全领域的文章写作为例: 一,首先从摘要(Abstract)着手 二,接下来看下文章标题 (Title) 三,如何根据Results来进行Disc…

    2023-02-27
    144
  • 大模型日报(7月19日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-19
    207
  • 大模型日报(6月5日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-06-05
    163
  • 大模型日报(9月27日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-27
    268
  • 大模型日报(4月16日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 Megalodon:具有无限上下文长度的高效…

    2024-04-16
    213