大模型日报(8月23日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(8月23日 学术篇)

论文

01

Jamba-1.5:规模化的混合Transformer-Mamba模型

我们提出了Jamba-1.5,这是基于我们的Jamba架构的新型指令调优型大型语言模型。Jamba是一种混合Transformer-Mamba的专家混合架构,提供高吞吐量和低内存使用率,同时保持与Transformer模型相同或更好的质量。我们发布了两种模型规格:Jamba-1.5-Large,具有94B活动参数,和Jamba-1.5-Mini,具有12B活动参数。这两个模型都经过微调,用于各种对话和遵循指令的能力,并具有256K个token的有效上下文长度,在开放权重模型中属于最大类别。为了支持经济有效的推断,我们引入了ExpertsInt8,这是一种新颖的量化技术,允许在处理256K个标记上下文时,将Jamba-1.5-Large适配到一个拥有8个80GB GPU的计算机上,而不会损失质量。在一系列学术和聊天机器人基准测试中评估时,Jamba-1.5模型取得了出色的结果,同时提供高吞吐量,并在长上下文基准测试中胜过其他开放权重模型。这两种尺寸的模型权重根据Jamba开放模型许可公开提供,我们也以开源的方式发布了ExpertsInt8。
大模型日报(8月23日 学术篇)
大模型日报(8月23日 学术篇)http://arxiv.org/abs/2408.12570v1
02

大语言模型的可控文本生成: A Survey

在自然语言处理(NLP)中,大语言模型(LLMs)展示了高水平的文本生成质量。然而,在现实世界应用中,LLMs必须满足日益复杂的要求。除了避免误导或不当内容外,LLMs还必须满足特定用户需求,如模仿特定写作风格或生成富有诗意的文本。这些多样化需求推动了可控文本生成(CTG)技术的发展,确保输出符合预定义的控制条件,如安全性、情感、主题一致性和语言风格,同时保持高水平的帮助性、流畅性和多样性。本文系统地审查了LLMs的CTG的最新进展,提供了对核心概念的全面定义,并澄清了控制条件和文本质量的要求。我们将CTG任务分为两种主要类型:内容控制和属性控制。讨论了关键方法,包括模型再训练、微调、强化学习、提示工程、潜在空间操纵和解码时间介入等。我们分析了每种方法的特点、优势和局限性,提供了微妙的见解,以实现生成控制。此外,我们审查了CTG的评估方法,总结了其在不同领域的应用,并解决了当前研究中的关键挑战,包括流畅性和实用性降低。我们还提出了几点建议,如在未来研究中更加注重实际应用。本文旨在为该领域的研究人员和开发人员提供有价值的指导。我们的参考文献和中文版本可在https://github.com/IAAR-Shanghai/CTGSurvey上开源。
大模型日报(8月23日 学术篇)
大模型日报(8月23日 学术篇)http://arxiv.org/abs/2408.12599v1
03

儿童语言习得的语言独立模型

这项工作重新实现了一个最近的语义引导儿童语言习得模型,该模型最初设计用于英语,并将其训练为学习一种新语言:希伯来语。模型通过对话语和逻辑形式作为意义表示的成对学习,同时获取句法和词义。结果显示,该模型大部分能迁移到希伯来语,但一些因素,包括希伯来语中更丰富的形态学,使学习变得更慢且不够鲁棒。这表明未来工作的一个明确方向是使模型能够利用不同词形之间的相似性。
大模型日报(8月23日 学术篇)http://arxiv.org/abs/2408.12254v1
04

Hermes 3 技术报告

摘要:指导微调模型已成为大多数人与大型语言模型互动的主要方式。与”基础”或”基础”模型相反,指导微调模型优化以响应命令语句。我们提出Hermes 3,一个中立对齐的通用指导和工具使用模型,具有强大的推理和创造能力。其最大版本,Hermes 3 405B,在几个公共基准测试中实现了最先进的性能。
大模型日报(8月23日 学术篇)http://arxiv.org/abs/2408.11857v1
05

FactorLLM: 通过专家混合因式化知识的大型语言模型

近期研究表明,大语言模型(LLMs)中的前馈网络(FFNs)在存储多样化的语言和事实知识方面起着至关重要的作用。传统方法经常面临挑战,因为它们的整体和冗余架构导致知识混淆,这需要更高效的解决方案,尤其是对于LLMs。在本文中,我们探讨了LLMs中的FFN计算范式,并引入了FactorLLM,这是一种将训练良好的密集FFN分解为稀疏子网络的新方法,而无需进行任何进一步修改,同时保持相同的性能水平。此外,我们嵌入了混合专家模型(MoE)中的路由器,并结合了我们设计的先验近似(PA)损失项,促进了专家的动态激活和知识适应,从而加速计算过程,并利用最少的训练数据和微调步骤提高性能。FactorLLM因此实现了知识的高效分解,并激活了专门针对指定任务定制的专家组,模拟了人类大脑的交互式功能分割。在各种基准测试中进行的大量实验表明,我们提出的FactorLLM具有可比较的性能,可以获得高达85%的模型性能,同时推理速度提高超过30%。 代码:https://github.com/zhenwuweihe/FactorLLM.
大模型日报(8月23日 学术篇)
大模型日报(8月23日 学术篇)http://arxiv.org/abs/2408.11855v1
06

OpenFactCheck:LLM事实性评估的统一框架

随着大语言模型(LLMs)在各种实际应用中的增加使用,需要自动工具来检查它们输出的事实准确性,因为LLMs经常会产生幻觉。然而,这很困难,因为需要评估自由形式的开放领域回复的事实性。为了减轻这些问题,我们开发了OpenFactCheck,一个统一的框架,具有三个模块:(i)RESPONSEEVAL,允许用户轻松定制自动事实核查系统,并使用该系统评估输入文档中所有声明的真实性,(ii)LLMEVAL,评估LLM的整体真实性,以及(iii)CHECKEREVAL,一个用于评估自动事实核查系统的模块。OpenFactCheck是开源的,并作为Python库和Web服务发布。详细系统描述视频请见https://youtu.be/-i9VKL0HleI。
大模型日报(8月23日 学术篇)http://arxiv.org/abs/2408.11832v1
07

A Percolation Model of Emergence:分析在正式语言上训练的Transformer

随着数据量、规模或计算能力的增加,神经网络可能会突然学习到特定能力,这种现象通常被称为“涌现”。除了科学理解外,确定导致这种涌现能力的因果因素对于为人工智能制定风险监管框架至关重要。在这项工作中,我们受到对其他领域中涌现特性研究的启发,并提出了在神经网络背景下对该概念的现象学定义。我们的定义认为,获取潜在数据生成过程中的特定结构是导致特定、较窄任务性能突然增长的原因。我们通过提出一个基于上下文敏感形式语言的实验系统来实证考察这一定义,并发现经过训练以执行该语言字符串上的任务的Transformer确实表现出涌现能力。具体来说,我们展示了一旦模型学习了语言的潜在语法和上下文敏感性结构,对于较窄任务的表现会突然开始改善。然后,我们将我们网络的学习动态比作双部图中的渗流过程,建立一个正式的相变模型,预测了在改变数据结构时观察到的涌现点的转变。总的来说,我们的实验和理论框架为更好地定义、描述和预测神经网络中的涌现迈出了一步。
大模型日报(8月23日 学术篇)http://arxiv.org/abs/2408.12578v1
08

Unraveling Text Generation in LLMs:解开LLM中的文本生成之谜:一种随机微分方程方法

本文探讨了将随机微分方程(SDE)应用于解释大型语言模型(LLM)如GPT-4的文本生成过程。LLM中的文本生成被建模为一个随机过程,其中每个步骤取决于先前生成的内容和模型参数,从词汇分布中抽样下一个单词。我们使用SDE表示这个生成过程,以捕捉确定性趋势和随机扰动。漂移项描述生成过程中的确定性趋势,扩散项捕捉随机变化。我们使用神经网络拟合这些函数,并在真实文本语料库上验证模型。通过数值模拟和全面分析,包括漂移和扩散分析、随机过程属性评估和相空间探索,我们深入了解文本生成的动态。这种方法不仅增强了对LLM内部工作原理的理解,还为语言生成提供了一种新颖的数学视角,对诊断、优化和控制生成文本质量至关重要。
大模型日报(8月23日 学术篇)http://arxiv.org/abs/2408.11863v1
09

PolyRouter: 一个多大语言模型查询系统

随着各领域大型语言模型(LLM)的快速增长,涌现了许多新的LLM,每个都具有特定领域的专长。这种扩散凸显了快速、高质量和经济有效的LLM查询响应方法的需求。然而,目前没有单一的LLM能有效地平衡这种三难困境。一些模型功能强大但成本极高,而其他模型虽快速廉价但质量不足。为解决这一挑战,我们提出了PolyRouter,一个非整体式的LLM查询系统,无缝整合各种LLM专家到单一查询界面,并根据查询需求动态将查询路由到最高性能的专家。通过广泛实验,我们证明与独立专家模型相比,PolyRouter可提高查询效率高达40%,并实现高达30%的显著成本降低,同时维持或提升高达10%的模型性能。
大模型日报(8月23日 学术篇)
大模型日报(8月23日 学术篇)http://arxiv.org/abs/2408.12320v1
HuggingFace&Github

01

TrackGo

TrackGo 是一种新方法,通过 free-form masks 和箭头实现条件视频生成,允许用户灵活操控视频内容。它引入的 TrackAdapter 是一个高效的适配器,集成于预训练的视频生成模型中,利用注意力图准确激活运动区域。
大模型日报(8月23日 学术篇)https://zhtjtcz.github.io/TrackGo-Page/
02

AI21-Jamba-1.5-Large

AI21-Jamba-1.5-Large 是一款由 AI21 开发的高效混合 SSM-Transformer 模型,支持高达 256K 的长上下文处理,具备多语言支持和商业优化功能,适合复杂文本和对话应用。
https://huggingface.co/ai21labs/AI21-Jamba-1.5-Large
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/13416.html

Like (0)
Previous 2024-08-22 20:43
Next 2024-08-25 23:08

相关推荐