大模型日报（4月12日学术篇）

特别活动！

欢迎观看大模型日报，如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

论文

RecurrentGemma：超越Transformer以提高效率的开放语言模型

我们介绍 RecurrentGemma，一个使用谷歌创新的 Griffin 架构的开放大语言模型。Griffin 结合了线性循环和局部注意力，在语言任务上表现出色。它具有固定大小的状态，降低内存使用，能够有效地推理长序列。我们提供了一个包含 20 亿非嵌入参数的预训练模型，以及一个微调的变种。尽管使用更少的 token 进行训练，但这两个模型都达到了与 Gemma-2B 相当的性能。

http://arxiv.org/abs/2404.07839v1

JetMoE: 用10万美元达到Llama2性能

大语言模型（LLM）取得了明显的成绩，但它们对资源的需求不断增加，已成为强大和可访问超人类智能发展的主要障碍。本报告介绍了JetMoE-8B，这是一个新的LLM，经过少于0.1百万美元的培训，使用了来自仔细混合的开源语料库和30,000个H100 GPU小时的1.25T token。尽管成本较低，JetMoE-8B表现出色，JetMoE-8B的性能优于Llama2-7B模型，JetMoE-8B-Chat超过了Llama2-13B-Chat模型。这些结果表明，LLM的培训成本可以比通常认为的要便宜得多。JetMoE-8B基于高效的稀疏门控专家混合（SMoE）架构，由注意力和前馈专家组成。两个层都是稀疏激活的，使得JetMoE-8B拥有8B参数，仅激活每个输入token的2B，相比于Llama2-7B，推理计算减少约70％。此外，JetMoE-8B非常开放和学术友好，仅使用公共数据集和训练代码。本报告详细介绍了所有训练参数和数据混合，以促进未来开放基础模型的发展工作。这种透明度旨在鼓励合作和促进可访问和高效LLM领域的进一步发展。模型权重可在https://github.com/myshell-ai/JetMoE 上公开获取。

http://arxiv.org/abs/2404.07413v1

Rho-1: 并非所有 token 都是你所需的

之前的语言模型预训练方法通常对所有训练token应用下一个token预测损失。挑战这一规范，我们认为“语言模型训练中并非所有token都同等重要”。我们的初步分析深入研究了语言模型的token级训练动态，揭示了不同token的独特损失模式。借助这些见解，我们引入了一种称为Rho-1的新语言模型。与传统的语言模型不同，Rho-1采用选择性语言建模（SLM），有选择地训练与期望分布对齐的有用token。这种方法包括使用参考模型对预训练token进行评分，然后通过专注于具有较高溢出损失的token的损失进行语言模型训练。在持续在15B OpenWebMath语料库上预训练时，Rho-1在9个数学任务中几乎提高了30%的few-shot准确性。微调后，Rho-1-1B和7B在MATH数据集上分别实现了40.6%和51.8%的最先进结果 – 仅占预训练token的3%的DeepSeekMath。此外，在80B通用token上进行预训练时，Rho-1在15个不同任务中实现了平均增强6.8%，提高了语言模型预训练的效率和性能。

http://arxiv.org/abs/2404.07965v1

语言模型合成数据的最佳实践和经验教训

人工智能模型的成功依赖于大量、多样化和高质量的数据集，但由于数据稀缺、隐私问题和高成本，获取这些数据可能具有挑战性。合成数据已成为一种有前途的解决方案，通过生成模拟真实世界模式的人工数据。本文概述了合成数据研究，讨论了其应用、挑战和未来方向。我们提供了先前研究的经验证据来证明其有效性，并强调确保其真实性、忠实性和无偏见的重要性。我们强调了对合成数据的负责任使用，以构建更强大、包容和可信赖的语言模型。

http://arxiv.org/abs/2404.07503v1

HGRN2：具有状态扩展的门控线性RNN

摘要：HGRN (Qin等人，2023) 层级门控线性RNN 在语言建模中表现出竞争性的训练速度和性能，同时提供高效的推断。然而，HGRN的循环状态大小仍然相对较小，限制了其表达能力。为了解决这个问题，受线性注意力的启发，我们引入了一个简单的基于外积的状态扩展机制，可以显著扩大循环状态的大小，而不引入任何额外的参数。线性注意力形式还允许硬件高效的训练。我们的大量实验证实了HGRN2在语言建模、图像分类和长距离竞技场的优势。在受控实验设置中，我们最大的3B HGRN2模型略优于Mamba和LLaMa架构Transformer在语言建模方面；而在下游评估中，其与许多开源的3B模型竞争，并且使用较少的总训练tokens。

http://arxiv.org/abs/2404.07904v1

ResearchAgent：利用大语言模型在科学文献中进行迭代研究思想生成

科学研究对于改善人类生活至关重要，但其固有的复杂性、缓慢的步伐和对专业专家的需求却对其造成了阻碍。为了增强其生产力，我们提出了一个ResearchAgent，这是一个由大语言模型驱动的研究思路编写智能体，可以自动生成问题、方法和实验设计，并在基于科学文献的基础上进行迭代优化。我们的ResearchAgent从一个核心论文作为主要焦点开始生成思路，不仅通过连接学术图中的信息得到相关出版物，还通过基于其潜在概念的实体检索库中的实体进行增强，这些实体从众多论文中挖掘和共享。此外，与人类通过同行讨论迭代改进思路的方法类似，我们利用多个提供评论和反馈的ReviewingAgent。此外，它们是用与人类偏好对齐的大型语言模型实例化的，其评估标准源自实际的人类判断。我们在跨多个学科的科学出版物上实验证明了我们的ResearchAgent，在生成基于人类和模型评估结果的新颖、清晰和有效的研究思路方面的有效性。

http://arxiv.org/abs/2404.07738v1

为什么小型语言模型表现不佳？通过Softmax瓶颈研究语言模型饱和

近期在语言建模中取得的进展在于在极大的网络采集文本语料库上对高参数化神经网络进行预训练。在实践中，使用这些模型进行训练和推理可能成本高昂，这促使人们使用规模较小的对应模型。然而，观察到规模较小的模型可能会出现饱和现象，即在训练的某个较高点出现性能下降，随后进入平台期。本文发现，这种饱和现象可以通过规模较小模型的隐藏维度与目标上下文概率分布的高秩之间存在不匹配来解释。这种不匹配通过在这些模型中使用的线性预测头的性能受到已知的 softmax 瓶颈现象的影响。我们衡量了 softmax 瓶颈在各种设置下的影响，并发现基于小于1000个隐藏维度的模型往往在预训练后期采用退化的潜在表示，导致了评估性能的降低。

http://arxiv.org/abs/2404.07647v1

从单词到数字：你的大语言模型在给定上下文示例时悄悄成为了一个能干的回归器

我们分析了预训练的大型语言模型（如Llama2、GPT-4、Claude 3等）在给定上下文示例时，在没有额外训练或梯度更新的情况下，能够进行线性和非线性回归的能力。我们的发现显示，几个大型语言模型（如GPT-4、Claude 3）能够执行回归任务，性能可以达到甚至超过传统监督方法（如随机森林、装袋法或梯度提升）。例如，在具有挑战性的Friedman＃2回归数据集中，Claude 3胜过许多监督方法，如AdaBoost、SVM、随机森林、KNN或梯度提升。然后，我们研究了大型语言模型的性能如何随着上下文示例数量的增加而扩展。我们从在线学习中的后悔概念中借鉴，并凭经验证明，LLM能够获得次线性后悔。

http://arxiv.org/abs/2404.07544v1

HuggingFace&Github

llm.c

llm.c 其中包含了使用简单的 C/CUDA 进行 LLM 训练的代码。这种方法不需要使用大量的PyTorch（245MB）或cPython（107MB）。举例来说，训练GPT-2（CPU，fp32）只需要大约1000行清晰的代码，而且全部内容都在一个文件中。它可以立即编译和运行，并且与PyTorch的参考实现完全匹配。

https://github.com/karpathy/llm.c

Realmdreamer

RealmDreamer 是一种从文本描述生成通用前向3D场景的技术。该技术通过优化 3D 高斯 Splatting 表示来匹配复杂的文本提示。通过利用最先进的文本到图像生成器来初始化这些斑点，将它们提升到3D，并计算遮挡体积。然后，将这个表示优化到多个视图上，作为一个带有图像条件扩散模型的3D修复任务。为了学习正确的几何结构，通过结合深度扩散模型，通过在修复模型的样本上进行条件化，从而得到丰富的几何结构。最后，使用图像生成器的锐化样本对模型进行微调。值得注意的是，这个技术不需要在任何特定场景数据集上进行训练，并且可以合成多种风格的高质量3D场景，包括多个对象。其通用性还允许从单个图像进行3D合成。