大模型日报(4月16日 学术篇)

欢迎观看大模型日报

大模型日报(4月16日 学术篇)

论文

01

Megalodon:具有无限上下文长度的高效LLM预训练和推理

摘要:Transformer 模型存在的二次复杂度和长度外推能力不足限制了其处理长序列的能力。为解决这一问题,本文引入了Megalodon,一个用于高效序列建模的神经架构,能够处理无限长度的上下文。Megalodon基于Mega架构,并引入了多个技术组件以提升其性能和稳定性。在与Llama2的对比实验中,Megalodon在拥有70亿参数和2万亿训练 token 的规模上实现了比 Transformer 更高的效率。其训练损失为1.70,介于 Llama2-7B(1.75)和 13B(1.67)之间。GitHub 代码链接:https://github.com/XuezheMax/megalodon
大模型日报(4月16日 学术篇)http://arxiv.org/abs/2404.08801v1
02

TransformerFAM:反馈注意力即为工作记忆

尽管Transformer已经彻底改变了深度学习,但它们的二次注意力复杂性阻碍了它们处理无限长输入的能力。我们提出了一种新颖的Transformer架构Feedback Attention Memory(FAM),利用反馈循环使网络能够关注自己的潜在表示。这种设计促进了Transformer内部工作记忆的涌现,使其能够处理无限长的序列。TransformerFAM不需要额外的权重,可以与预训练模型无缝集成。我们的实验表明,TransformerFAM显著改善了各种模型大小(1B、8B和24B)上长上下文任务的Transformer性能。这些结果展示了赋予大语言模型(LLMs)处理无限长序列的潜力。

大模型日报(4月16日 学术篇)http://arxiv.org/abs/2404.09173v1

03

压缩线性表达智能

摘要:有一种观念认为,学会良好地压缩将导致智能。最近,语言建模被证明与压缩等效,这为大型语言模型(LLMs)的成功提供了令人信服的理由:发展更先进的语言模型实质上是增强了压缩,从而促进了智能。尽管存在这样吸引人的讨论,但很少有实证证据显示出压缩与智能之间的相互作用。在这项工作中,我们在LLMs的背景下检查了它们之间的关系,将LLMs视为数据压缩器。鉴于“智能”的抽象概念,我们采用下游基准测试得分的平均值作为替代,特别针对知识和常识、编码以及数学推理相关的智能。在12个基准测试中,我们研究了来自不同组织的30个公共LLMs。值得注意的是,我们发现LLMs的智能——通过平均基准测试得分反映——与它们压缩外部文本语料库的能力几乎呈线性相关。这些结果提供了具体证据,支持了优越的压缩表明更大的智能的观念。此外,我们的发现表明,作为从原始文本语料库中派生出的无监督指标,压缩效率是一种与模型能力线性相关的可靠评估措施。我们公开了我们的压缩数据集以及我们的数据收集管道,以便未来研究人员能够适当评估压缩。
大模型日报(4月16日 学术篇)http://arxiv.org/abs/2404.09937v1
04
4

大语言模型在上下文中的召回是与提示相关的

大语言模型(LLM)的普及突显了进行彻底评估以区分它们的比较优势、局限性和最佳用例的重要性。特别重要的是评估它们正确检索给定提示中包含的信息的能力。模型执行此操作的能力显著影响其利用上下文细节的效果,从而影响其在实际应用中的实用性和可靠性。
我们的研究使用草堆中的针方法分析了各种LLMs的上下文召回性能。在这种方法中,一个事实(”针”)嵌入在一块填充文本(”草堆”)中,要求模型检索。我们评估每个模型在各种草堆长度和不同针放置下的召回性能,以识别性能模式。这项研究表明,LLM的召回能力不仅取决于提示的内容,还可能因其训练数据中的偏见而受损。相反,调整模型架构、训练策略或微调可以改善性能。我们的分析揭示了LLM行为,为开发更有效的LLM应用提供了方向。
大模型日报(4月16日 学术篇)http://arxiv.org/abs/2404.08865v1
05

关于多模态大语言模型的推测性解码

摘要:多模态大语言模型(MLLMs)的推理速度较慢,因为它们具有大型语言模型骨干,存在内存带宽瓶颈,并且会自动逐词生成token。本文探讨了对MLLMs,特别是LLaVA 7B模型应用推测解码以增强推理效率的方法。我们表明,仅具有语言模型的模型可以作为LLaVA 7B的推测解码的良好草稿模型,绕过了从草稿模型获取图像token及其相关处理组件的需要。我们在三种不同任务上的实验表明,通过从头开始训练的一个包含1.15亿参数的语言模型,推测解码能够实现多达2.37倍的内存限制加速。此外,我们引入了一个紧凑的LLaVA草稿模型,包括一个图像适配器,能够在图像字幕中显示边缘性能提升,同时在其他任务中保持可比的结果。
大模型日报(4月16日 学术篇)http://arxiv.org/abs/2404.08856v1
06

状态空间模型中状态的错觉

摘要:状态空间模型(SSM)已经成为与以前普遍的Transformer架构相比,构建大型语言模型(LLM)的潜在替代架构。Transformer的一个理论弱点是它们无法表达某些类型的顺序计算和状态跟踪,而SSM则通过其与循环神经网络(RNNs)的紧密结构相似性来明确设计以解决这个问题。但SSM是否真正具有在状态跟踪方面的优势呢?令人惊讶的是,答案是否定的。我们的分析显示,与Transformer非常类似,SSM的表达能力也受到限制:SSM无法表达超出复杂度类 $$mathsf{TC}^$$ 的计算。特别是,这意味着它们无法解决简单的状态跟踪问题,例如排列组合。因此,SSM无法准确跟踪棋盘上的某些符号注释的走法,评估代码,或者在长篇故事中追踪实体。我们的实验结果也显示,SSM类似于Mamba风格的确在状态跟踪方面遇到困难。因此,尽管其循环的构成,SSM中的“状态”是一种幻觉:SSM具有类似于Transformer等非循环模型的表达限制,这可能从根本上限制了它们解决现实世界状态跟踪问题的能力。
大模型日报(4月16日 学术篇)http://arxiv.org/abs/2404.08819v1
07

英语是新的编程语言吗?伪码工程呢?

背景:人工智能(AI)与自然语言处理(NLP)结合,特别是通过使用聊天机器人,具有革命性的潜力和独特挑战。本研究旨在调查不同输入形式对OpenAI领先的语言模型ChatGPT在理解和执行复杂多意图任务方面的影响。设计:采用案例研究方法,辅以话语分析,研究分析了ChatGPT对自然语言和伪代码输入的响应。研究具体考察了模型在意图理解、可解释性、完整性和创造性等四个方面的能力。结果:研究发现,伪代码输入显著提高了ChatGPT响应的清晰度和确定性,减少了自然语言固有的模糊性。增强的自然语言,通过提示工程技术进行结构化,同样提高了模型的可解释性和创造性。结论:该研究强调了伪代码工程在改进人工智能交互和实现更确定性、简洁且直接结果方面的潜力,倡导其在需要精确AI响应的跨学科领域的广泛应用。
大模型日报(4月16日 学术篇)http://arxiv.org/abs/2404.08684v1
08

一种合成数据生成模型的评估框架

摘要:如今,使用合成数据作为一种成本效益的策略,已经被广泛应用于增强数据增广,提高机器学习模型性能以及解决与敏感数据隐私相关的问题。因此,保证生成的合成数据质量,准确代表真实数据,是至关重要的。本工作提出了一种新的框架,用于评估合成数据生成模型开发高质量合成数据的能力。所提出的方法能够提供关于评估框架和比较模型排名的强大统计和理论信息。两个使用案例场景展示了所提出框架评估合成数据生成模型生成高质量数据的能力。实现代码可在https://github.com/novelcore/synthetic_data_evaluation_framework 中找到。
大模型日报(4月16日 学术篇)http://arxiv.org/abs/2404.08866v1
09

大语言模型中的故障token:分类分类与有效检测

随着大语言模型(LLMs)在各个领域的应用不断扩大,有必要全面调查它们的意想不到的行为和相应的结果。在本研究中,我们介绍并系统地探讨了“故障标记”,这些标记是由已建立的标记器产生的异常标记,可能会损害模型的响应质量。我们对七种热门的LLMs进行了实验,使用了三种不同的标记器,共涉及了182,517个标记。我们对识别的故障标记进行了分类,并研究了LLMs与故障标记交互时表现出的症状。基于我们的观察结果,故障标记倾向于在嵌入空间中聚类,我们提出了GlitchHunter,一种新颖的基于迭代聚类的技术,用于有效检测故障标记。评估表明,我们的方法在八个开源LLMs上明显优于三种基准方法。据我们所知,这是关于故障标记的首个全面研究。我们的新检测方法进一步提供了有价值的见解,以减轻LLMs中与标记化相关的错误。
http://arxiv.org/abs/2404.09894v1

HuggingFace&Github

01

MiniCPM-V和OmniLMM

MiniCPM-V和OmniLMM 是面向图文理解的开源多模态大模型系列。该系列模型接受图像和文本输入,并提供高质量的文本输出。我们发布了两个版本的模型,旨在实现领先的性能和高效的部署:
  • MiniCPM-V 2.8B:可在终端设备上部署的先进多模态大模型。最新发布的 MiniCPM-V 2.0 可以接受 180 万像素的任意长宽比图像输入,实现了和 Gemini Pro 相近的场景文字识别能力以及和 GPT-4V 相匹的低幻觉率。
  • OmniLMM-12B:相比同规模其他模型在多个基准测试中具有领先性能,实现了相比 GPT-4V 更低的幻觉率。

大模型日报(4月16日 学术篇)https://github.com/OpenBMB/MiniCPM-V

02

llm-universe——适合小白的入门教程

这个项目是一个面向小白开发者的大模型应用开发教程,旨在基于阿里云服务器,结合个人知识库助手项目,通过一个课程完成大模型开发的重点入门,主要内容包括:
  1. 大模型简介,何为大模型、大模型特点是什么、LangChain 是什么,如何开发一个 LLM 应用,针对小白开发者的简单介绍;
  2. 如何调用大模型 API,本节介绍了国内外知名大模型产品 API 的多种调用方式,包括调用原生 API、封装为 LangChain LLM、封装为 Fastapi 等调用方式,同时将包括百度文心、讯飞星火、智谱AI等多种大模型 API 进行了统一形式封装;
  3. 知识库搭建,不同类型知识库文档的加载、处理,向量数据库的搭建;
  4. 构建 RAG 应用,包括将 LLM 接入到 LangChain 构建检索问答链,使用 Streamlit 进行应用部署
  5. 验证迭代,大模型开发如何实现验证迭代,一般的评估方法有什么;
https://github.com/datawhalechina/llm-universe

大模型日报(4月16日 学术篇)

大模型日报16

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/16043.html

Like (0)
Previous 2024-04-15 19:57
Next 2024-04-16 21:49

相关推荐

  • 导师分享,如何与导师沟通成效最大?

    近日因为写文章的事情,和博导沟通的比较多,或许因为在交流中还存在一些问题,导师当天就果断分享(教育)了几点,其中,我想我应该触犯了几点。 建议毕竟是从导师的角度出发,所以对学生的要…

    2022-07-22
    195
  • 大模型日报(6月15~16日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-06-16
    163
  • #看看代码 机器学习7步进行肺癌预测

    今日立冬,刚好一杯咖啡的工夫,看一段机器学习的几行经典代码,放松一下。 ​ ​ 代码很简单,但却不失机器学习标准流程的必要步骤。 ​ 使用SVM(支持向量机)对肺癌数据集进行学习,…

    2022-11-07
    183
  • 大模型日报(9月12日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-12
    235
  • 大模型日报(6月13日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-13
    121
  • Google Colab中的AI Monica真的无敌了,轻松编写和调优程序!

    这两天刚好在调程序中,无意中用到了Google Monica,真的让人惊叹不已! 先给结论:编写、调优程序,解释运行结果基本无障碍! Colab + Monica的流畅和无缝程度,…

    2023-06-21
    195
  • TruthGPT即将横空出世,ChatGPT害怕吗?

    近日,伊隆马斯克计划开发一款名为“TruthGPT”的人工智能平台。它的目的是追求最大的真理,并对OpenAI的ChatGPT提出挑战。 那么,ChatGPT该害怕吗? 目前,Tr…

    2023-04-19
    208
  • Visual ChatGPT图像生成神器,手把手带你玩!

    微软最近推出了一种名为“Visual ChatGPT”的新模型,它结合了不同类型的视觉基础模型 (VFM),包括 Transformers、ControlNet 和 Stable …

    2023-03-13
    121
  • 一眼看透机器学习中的欠拟合(Underfitting)和过拟合(Overfitting)

    第一篇文章没有漂亮的开场白,想到哪就写哪,只因发现一个特别有趣的东西而已。 众所周知,无论是学术界还是产业界,人工智能乃当下大热,而机器学习作为其中的重要分支,亦是热中之热,重中之…

    2022-07-12
    187
  • 大模型日报(6月21日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-21
    201