大模型日报(5月22日 学术篇)

特别活动

大模型日报(5月22日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月22日 学术篇)

论文

01

PyramidInfer: 金字塔KV缓存压缩,用于高吞吐量LLM推断

大语言模型(LLMs)展示了出色的理解能力,但在推断过程中面临GPU内存使用挑战,限制了它们在像聊天机器人这样的实时应用中的可扩展性。为了加速推断过程,我们在GPU内存中存储计算的键和值(KV缓存)。现有方法研究了KV缓存压缩以通过修剪预先计算的KV缓存来减少内存。然而,它们忽视了层间依赖性以及预先计算中的巨大内存消耗。为了探索这些缺陷,我们发现关键和值的数量逐层递减,并可以通过注意力权重的一致性来提取它们。基于这些发现,我们提出了PyramidInfer,一种通过逐层保留关键上下文来压缩KV缓存的方法。PyramidInfer通过计算更少的键和值而节省显著内存,而不会影响性能。实验结果显示,PyramidInfer比Accelerate提高了2.2倍的吞吐量,并在KV缓存中减少了超过54%的GPU内存。
大模型日报(5月22日 学术篇)http://arxiv.org/abs/2405.12532v1
02

稀疏自动编码器在语言模型中实现可扩展和可靠的电路识别

本文介绍了一种在大型语言模型中发现可解释电路的高效而稳健方法,使用离散稀疏自动编码器。我们的方法解决了现有技术的关键局限,即计算复杂性和对超参数的敏感性。我们提议在精心设计的正面和负面例子上训练稀疏自动编码器,其中模型只能为正面例子正确预测下一个token。我们假设学习到的注意力头输出的表示将会在头部参与特定计算时发出信号。通过将学习到的表示离散化为整数编码,并测量对于每个头部独特于正面例子的编码之间的重叠,我们能够直接识别参与电路的注意力头部,而无需昂贵的消融或架构修改。在三个广为人知的任务 – 间接对象识别,大于比较和docstring完成 – 所提出的方法在恢复基准电路的准确性和召回率方面比现有技术基准更高,同时将运行时间从几个小时缩短到几秒。值得注意的是,我们仅需要每个任务5-10个文本例子来学习稳健的表示。我们的研究结果突显了离散稀疏自动编码器在可扩展和高效的机械可解释性方面的潜力,为分析大型语言模型的内在工作提供了新方向。
大模型日报(5月22日 学术篇)http://arxiv.org/abs/2405.12522v1
03

SirLLM:流式无限保留的LLM

随着大语言模型(LLMs)在各个领域变得日益普及,它们处理任意长度的输入和保持一定记忆的能力变得至关重要。然而,一次性输入过长的文本受限,研究表明,当输入长度超过LLMs的预训练文本长度时,文本生成能力会急剧下降。最近的研究采用了流式输入来减轻过长文本输入的压力,但这种方法可能会显著损害模型的长期记忆能力。为了应对这一挑战,我们介绍了Streaming Infinite Retentive LLM(SirLLM),允许LLMs在无限长度的对话中保持更长的记忆而无需进行微调。SirLLM利用Token Entropy指标和记忆衰减机制来筛选关键短语,赋予LLMs持久灵活的记忆。我们设计了三个不同任务并构建了三个数据集,以从不同角度衡量SirLLM的有效性:(1)DailyDialog;(2)购物;(3)石头剪刀布。我们的实验证明,SirLLM在不同LLMs和任务中能够稳定显著地提升效果,充分证明了其有效性。在对话中,“一个先生会忘记自己”,但SirLLM永远不会!我们的代码公开在https://github.com/Zoeyyao27/SirLLM。
大模型日报(5月22日 学术篇)http://arxiv.org/abs/2405.12528v1
04

Transformer实际上是线性的

本文揭示了Transformer解码器独有的一种线性特征,包括GPT、LLaMA、OPT、BLOOM等模型。我们分析了顺序层之间的嵌入变换,发现了一个近乎完美的线性关系(Procrustes相似度得分达到0.99)。然而,当去除残差部分时,由于Transformer层的输出范数始终较低,线性度会降低。我们的实验表明,去除或线性逼近一些最线性的Transformer模块并不会显著影响损失或模型性能。此外,在我们对较小模型的预训练实验中,我们引入了基于余弦相似性的正则化,旨在减少层的线性度。这种正则化提升了像Tiny Stories和SuperGLUE这样的基准测试的性能指标,并成功降低了模型的线性度。这项研究挑战了对Transformer架构的现有理解,表明它们的运作可能比先前假设的更线性化。
大模型日报(5月22日 学术篇)http://arxiv.org/abs/2405.12250v1
05

使用跨层注意力减小Transformer键-值缓存大小

摘要:键-值(KV)缓存在加速解码transformer-based autoregressive大语言模型(LLMs)中扮演着至关重要的角色。然而,在长序列长度和大批量大小下存储KV缓存所需的内存量可能变得难以承受。自Transformer的发明以来,为减小KV缓存大小发现的两个最有效的干预措施是Multi-Query Attention(MQA)及其泛化版本Grouped-Query Attention(GQA)。MQA和GQA都修改了注意力块的设计,使多个查询头可以共享单个键/值头,大幅减少不同键/值头的数量,而仅且稍微降低准确性。本文展示了通过在相邻层之间还共享键和值头,可以进一步推进Multi-Query Attention,得到一种我们称之为Cross-Layer Attention(CLA)的新注意力设计。通过CLA,我们发现可以将KV缓存大小再减少2倍,同时保持与未修改的MQA几乎相同的准确性。在从头开始训练1B和3B参数模型的实验中,我们证明CLA提供了传统MQA可能的内存/准确性权衡的帕累托改进,使推断可以使用比传统上可能的更长的序列长度和更大的批量大小。
大模型日报(5月22日 学术篇)http://arxiv.org/abs/2405.12981v1
HuggingFace&Github

01

Shell-ask

Shell Ask 由 ChatKit 赞助,ChatKit 是一款适用于 ChatGPT 和许多其他型号的免费聊天应用程序。
大模型日报(5月22日 学术篇)https://github.com/egoist/shell-ask
02

100 days_AI——初学者进阶计划

这是一个循序渐进的 100 天人工智能学习计划,从基础知识到高级概念一一涵盖,适合AI初学者跟随学习。该路线图首先介绍了人工智能的历史和应用,并指出了学习所需的先决条件,包括基本编程知识、数学基础和学习实验的意愿。接下来的每一天都有具体的任务、资源和练习,涵盖了 Python 编程、NumPy、Pandas和Matplotlib等重要工具,使学习者能够循序渐进地掌握人工智能的核心知识。整个计划旨在帮助初学者在短时间内快速提升人工智能方面的能力,为后续的深入学习奠定坚实的基础。
https://github.com/h9-tect/100days_AI
03

Fisher AI

FisherAI是一款专为提高学习效率而设计的Chrome浏览器插件。它集成了自动摘要、网页及视频翻译、多轮对话等多种实用的AI功能,并支持多种大语言模型,为用户提供了灵活强大的AI工具。通过一键操作,FisherAI可以帮助用户更高效地处理信息,提升学习体验。
大模型日报(5月22日 学术篇)https://github.com/fisherdaddy/FisherAI
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15217.html

Like (0)
Previous 2024-05-21 19:39
Next 2024-05-22 23:59

相关推荐

  • 大模型日报(9月2日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-02
    277
  • 大模型日报(5月14日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-14
    188
  • 导师交流心得 关于Introduction

    坐在咖啡馆,做个小笔记 第一篇打算投稿的文章写得七七八八,发给导师之后,以为能够得到详实具体的反馈建议,结果老板说有点“为难他”,于是我晚上主动拉了个会议,想一探究竟我干了什么“为…

    2022-07-20
    222
  • 简谈ChatGPT伦理问题之一:偏见

    刚好最近在整理ChatGPT的一些伦理问题,打算梳理一下类似ChatGPT等AI工具或者AI平台的几大伦理问题,计划写一个系列的文章。 这里先从偏见(Bias)开始,文章不长,只是…

    2023-03-14
    114
  • 大模型日报(4月27~28日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-04-28
    144
  • ChatGPT访问限制难倒你?来试试这九个开源平台,也能体验智能对话!

    让我们一起来探索一下 ChatGPT 的开源平替项目吧! 从最初的发布到现在已经过去了约四个月,ChatGPT 带给我们的震撼表现简直让人不敢相信 AIGC 这个时代已经到来。 然…

    2023-03-19
    213
  • 大模型日报(4月16日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 Megalodon:具有无限上下文长度的高效…

    2024-04-16
    198
  • AI 学术| Consensus 三秒让你从海量文献直接找到答案!

    你只需知道想研究的问题是什么,Consensus就能够帮你从海量的文献中,找到问题的答案! 学术研究的常规路径,通过关键词,找文献,再阅读文献摘要决定是否需要进一步阅读,如果是,再…

    2023-07-02
    175
  • 大模型日报(6月15~16日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-06-16
    165
  • 大模型日报(5月15日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-15
    188