大模型日报（5月8日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

xLSTM: 扩展长短期记忆网络

在上世纪90年代，长短期记忆（LSTM）的核心思想 – 恒定误差旋转木马和门控被引入。自那时起，LSTMs经受住时间的考验，贡献了许多深度学习成功案例，特别是构成了第一个大型语言模型（LLM）。然而，具有可并行化自注意力核心的Transformer技术的出现标志着一个新时代的曙光，在规模上超越了LSTMs。我们现在提出一个简单的问题：当将LSTMs扩展到数十亿个参数时，在利用现代LLMs的最新技术但缓解已知限制的同时，我们在语言建模方面能走多远？首先，我们引入了具有适当标准化和稳定技术的指数门控制度。其次，我们修改了LSTM存储结构，得到了：（i）具有标量存储、标量更新和新存储混合的sLSTM，（ii）具有完全可并行化的矩阵存储和协方差更新规则的mLSTM。将这些LSTM扩展集成到残差块主干中产生了xLSTM块，这些块然后被残留堆叠到xLSTM架构中。指数门控制度和修改后的存储结构提升了xLSTM的能力，在性能和扩展性上都表现得比最先进的Transformer和状态空间模型好。

http://arxiv.org/abs/2405.04517v1

Granite 代码模型：用于代码智能的开放基础模型家族

大型语言模型（LLM）在代码上的训练正在彻底改变软件开发过程。代码LLM越来越多地被整合到软件开发环境中，以提高人类程序员的生产力，基于LLM的智能体开始展现处理复杂任务的潜力。我们引入了一系列仅解码器的Granite代码模型，用116种编程语言编写的代码进行训练。Granite代码模型系列由3到34亿参数的模型组成，适用于各种应用，从复杂应用现代化任务到内存受限的设备使用案例。在广泛的任务集上评估表明，Granite代码模型在现有开源代码LLM中始终达到最先进的性能。Granite代码模型系列针对企业软件开发工作流程进行优化，在各种编码任务（如代码生成、修复和解释）中表现良好，是一个多才多艺的代码模型。我们以Apache 2.0许可证发布我们的所有Granite代码模型，供研究和商业使用。

http://arxiv.org/abs/2405.04324v1

NaturalCodeBench：研究HumanEval和自然用户提示中的编码能力不匹配

大语言模型（LLM）已经表现出很强的能力，能够生成用于生产活动的代码。然而，目前用于代码合成的基准，如HumanEval、MBPP和DS-1000，主要面向算法和数据科学入门任务，无法满足现实世界编码中普遍存在的挑战性要求。为了填补这一空白，我们提出了NaturalCodeBench（NCB），一个旨在反映真实编码任务中复杂性和多样性的具有挑战性的代码基准。NCB包含402个高质量问题，精心从在线编码服务的自然用户查询中选择，涵盖Python和Java两种语言，涵盖6个不同领域。鉴于创建真实查询的测试用例非常困难，我们还引入了一个半自动化流水线来增强测试用例构建的效率。与手动解决方案相比，它的效率提高了4倍以上。我们对39个LLM的系统实验发现，在NCB上，即使具有接近HumanEval分数的模型之间的性能差距仍可能很大，表明缺乏对实际代码合成场景的关注或对HumanEval的过度优化。另一方面，即使是表现最佳的GPT-4在NCB上仍然远未令人满意。评估工具包和开发集可在https://github.com/THUDM/NaturalCodeBench 上获得。

http://arxiv.org/abs/2405.04520v1

QServe: W4A8KV4量化和系统共同设计，提高高效LLM服务

量化可以加速大型语言模型（LLM）的推理。研究社区正在积极探索比INT8量化更低精度，如INT4。然而，目前最先进的INT4量化技术只能加速低批量、边缘LLM推理，在大批量、基于云的LLM服务中无法实现性能增益。我们揭示一个关键问题：现有的INT4量化方法在GPU上解量化权重或部分和时存在显著的运行时开销（20-90%）。为了解决这一挑战，我们介绍了QoQ，一个具有4位权重、8位激活和4位KV缓存的W4A8KV4量化算法。QoQ代表拉丁文中的4-8-4。QoQ是由QServe推理库实现的，可实现测得加速。QServe的关键见解是，在GPU上的LLM服务的效率受到低吞吐CUDA核心操作的重大影响。基于这一见解，在QoQ算法中，我们引入了渐进量化，可以降低W4A8 GEMM中的解量化开销。此外，我们开发了SmoothAttention来有效减少4位KV量化带来的精度降低。在QServe系统中，我们进行计算感知的权重重新排序，并利用寄存器级并行性来减少解量化延迟。我们还将融合的注意力限定在内存上，利用KV4量化带来的性能增益。结果，与TensorRT-LLM相比，QServe在A100上将Llama-3-8B的最大可实现服务吞吐量提高了1.2倍，在L40S上提高了1.4倍；在A100上，Qwen1.5-72B提高了2.4倍，在L40S上提高了3.5倍。值得注意的是，L40S GPU上的QServe甚至比A100上的TensorRT-LLM实现更高的吞吐量。因此，QServe有效地将LLM服务的成本降低了3倍。代码可在https://github.com/mit-han-lab/qserve获取。

http://arxiv.org/abs/2405.04532v1

vAttention: 为大语言模型提供动态内存管理，无需分页注意力

高效使用GPU内存对于高吞吐量的LLM推断至关重要。以往的系统预留内存用于KV缓存，导致由于内部碎片而造成容量浪费。受基于操作系统的虚拟内存系统启发，vLLM提出了PagedAttention，实现了对KV缓存的动态内存分配。这种方法消除了碎片，使得支持更大批次大小的高吞吐量LLM服务成为可能。然而，为了能够动态分配物理内存，PagedAttention将KV缓存的布局从连续的虚拟内存更改为非连续虚拟内存。这种改变需要重写注意力核以支持分页，并要求服务框架实现内存管理器。因此，PagedAttention模型导致软件复杂性、可移植性问题、冗余和效率低下。

在本文中，我们提出了vAttention进行动态KV缓存内存管理。与PagedAttention相比，vAttention保留了KV缓存在连续的虚拟内存中，并利用低级系统支持的需求分页来实现按需物理内存分配，这种支持已经存在。因此，vAttention减轻了注意力核开发人员明确支持分页的负担，并避免了在服务框架中重新实现内存管理。我们证明，vAttention使得各种注意力核的实现能够无缝进行动态内存管理。vAttention生成的token速度比vLLM快高达1.97倍，处理输入提示的速度比PagedAttention的FlashAttention和FlashInfer变体快3.92倍和1.45倍。