大模型日报(4月24日 学术篇)

欢迎观看大模型日报站(活动录屏复盘聚集地)

大模型日报(4月24日 学术篇)

论文

01

多头专家混合模型

稀疏专家混合模型(SMoE)通过扩展模型容量,而不会显著增加训练和推断成本,但存在两个问题:(1)专家激活低,仅有少数专家用于优化;(2)缺乏对每个标记内多个语义概念的细粒度分析能力。我们提出了多头专家混合(MH-MoE)模型,采用多头机制将每个标记分成多个子标记。这些子标记然后分配给并由一组多样化的专家并行处理,然后无缝重新集成为原始标记形式。多头机制使模型能够共同关注来自不同专家的各种表示空间的信息,显著增强专家激活,从而加深上下文理解并缓解过拟合。此外,我们的MH-MoE易于实现,并且与其他SMoE优化方法解耦,易于与其他SMoE模型集成以提高性能。在英语焦点语言建模、多语言建模和遮蔽多模态建模任务上的广泛实验结果表明了MH-MoE的有效性。
大模型日报(4月24日 学术篇)http://arxiv.org/abs/2404.15045v1
02

OpenELM: 一个拥有开源训练和推理框架的高效语言模型系列

摘要:重现性和透明度对于推进开放研究、确保结果的可靠性以及进行数据和模型偏见、潜在风险的调查至关重要。为此,我们发布了OpenELM,一个最先进的开放语言模型。OpenELM使用一种逐层缩放策略来有效地分配每个Transformer模型层中的参数,从而提高准确性。例如,在大约10亿参数的参数预算下,OpenELM相比于OLMo在精度上提高了2.36%,同时需要较少的预训练令牌。我们的发布包括完整的训练和评估语言模型的框架,在公开可用的数据集上进行训练,包括训练日志、多个检查点和预训练配置。我们还发布了将模型转换为MLX库以在苹果设备上进行推理和微调的代码。这一全面发布旨在赋予和加强开放研究社区,为未来的开放研究努力铺平道路。我们的源代码以及预训练模型权重和训练配方可以在https://github.com/apple/corenet找到。此外,模型可以在HuggingFace上找到:https://huggingface.co/apple/OpenELM。
大模型日报(4月24日 学术篇)http://arxiv.org/abs/2404.14619v1
03

Pegasus-v1 技术报告

这份技术报告介绍了Pegasus-1,一个专门用于视频内容理解和通过自然语言交互的多模态语言模型。Pegasus-1旨在应对视频数据带来的独特挑战,如解释时空信息,从而在各种长度范围内提供细致的视频内容理解。本技术报告概述了Pegasus-1的架构、训练策略以及在视频对话、零样本视频问题回答和视频摘要等基准测试中的表现。我们还探讨了Pegasus-1的定性特征,展示了其能力以及局限性,从而为读者提供一个对其当前状态和未来方向的平衡观点。
大模型日报(4月24日 学术篇)http://arxiv.org/abs/2404.14687v1
04
4

NExT:教大语言模型推理代码执行

摘要:人类开发者的基本技能之一是理解和推理程序执行过程。然而,大语言模型(LLMs)通常是在程序的表面文本形式上训练的,因此可能缺乏对程序在运行时执行方式的语义理解。为了解决这个问题,我们提出了NExT方法,教导LLMs检查程序的执行路径(执行行的变量状态)并通过思维链(CoT)推理对它们的运行时行为进行推理。具体来说,NExT利用自我训练来启动一个合成的训练集,其中包括导致正确任务解决方案(例如修复程序)的执行感知理由,而无需费力的手动注释。基于MBPP和HumanEval的程序修复任务的实验表明,NExT分别将PaLM 2模型的修复率提高了26.1%和14.3%,理由的质量也显著提高,经由自动度量和人工评分验证。我们的模型也可以推广到在测试时缺少程序追踪的情形。
大模型日报(4月24日 学术篇)http://arxiv.org/abs/2404.14662v1
05

走向更小、更快的解码器专用Transformer:架构变体及其影响

最近,大语言模型(LLMs)的研究呈指数增长,主要集中在Transformer为基础的架构上,[1] 引入并由[2]的仅解码器变种进一步发展。当代研究通常旨在通过增加架构复杂性和训练数据量来提高模型能力。然而,研究如何减小模型尺寸同时保持性能的研究有限。本研究对仅解码器Transformer架构进行了三项修改:ParallelGPT(p-gpt)、LinearlyCompressedGPT(lc-gpt)和ConvCompressedGPT(cc-gpt)。这些变体在代码生成任务中实现了与传统架构可比的性能,同时受益于减小的模型尺寸和更快的训练时间。我们开源模型权重和代码库,以支持未来在这一领域的研究和开发。
大模型日报(4月24日 学术篇)http://arxiv.org/abs/2404.14462v1

HuggingFace&Github

01

igerGraph CoPilot

TigerGraph CoPilot是一项自然语言查询服务,允许用户用简单的英语提出关于他们的图形数据的问题。该服务使用大型语言模型(LLM)将用户的问题转换为函数调用,然后在图数据库上执行。该服务旨在易于扩展,允许添加新的LLM提供程序和图模式。TigerGraph CoPilot由3个组件组成,InquiryAI(现已提供)、SupportAI(计划于2024年第二季度提供)和QueryAI(计划于2024年第四季度提供)。
大模型日报(4月24日 学术篇)https://github.com/tigergraph/CoPilot
02

VMind

VMind 是由 VisActor 提供的基于大型模型的图表智能组件,具有对话式图表智能生成和编辑能力。它提供了一个自然语言交互接口,使您能够轻松创建图表叙事作品,并通过连续对话进行编辑,极大地提高了创作数据可视化作品的效率。主要包括以下特点:
  • 易于使用:只需一行代码或一句话即可完成图表的创建和编辑。
  • 极致性能:图表生成和数据聚合等任务的耗时均在4秒以下。
  • 表现力强:支持13种常见的图表类型,以及数据聚合、筛选、排序等指令。
  • 安全合规:支持GPT和云雀模型,支持自定义模型调用方式;不会向大型模型传递详细数据,符合安全合规要求。
https://github.com/VisActor/VMind

大模型日报(4月24日 学术篇)

大模型日报16

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/15848.html

Like (0)
Previous 2024-04-24 11:15
Next 2024-04-24 23:58

相关推荐

  • 大模型日报(6月21日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-21
    221
  • AI文献管理 | Avidnote让你看文献时不打瞌睡!

    看文献时是不是一会功夫就打瞌睡了?这款集文献阅读、笔记记录和AI问答于一体的Avidnote,或许可以解救你~ 你有在看文献时,有没有看着看着,自己的身体不由自主地就要进入睡眠模式…

    2023-10-10
    188
  • 导师交流心得 关于Introduction

    坐在咖啡馆,做个小笔记 第一篇打算投稿的文章写得七七八八,发给导师之后,以为能够得到详实具体的反馈建议,结果老板说有点“为难他”,于是我晚上主动拉了个会议,想一探究竟我干了什么“为…

    2022-07-20
    243
  • Github Copilot (ChatGPT)来了,程序员可以放心地脱下长衫了!

    微软当年拿下GitHub,数年之后,终于亮剑~ 微软旗下的 GitHub 今天正在彻底改造其 Copilot 系统,以集成 OpenAI 的 GPT-4 模型,并为其 AI 结对程…

    2023-03-24
    114
  • 大模型日报(5月8日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-08
    168
  • 大模型日报(5月21日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-21
    113
  • Meta(Facebook)终于按耐不住, 六模态开源AI模型ImageBind到底如何?

    Meta(Facebook)终于按耐不住,也推出了自己的基于计算机视觉的多模态开源AI模型ImageBind! 这是目前第一个能够同时绑定来自六种模式数据的 AI 模型,且无需明确…

    2023-05-11
    269
  • 大模型日报(9月6日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-06
    303
  • 大模型日报(7月24日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-24
    274
  • 大模型日报(8月21日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-21
    211