大模型日报（4月30日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

大语言模型的时间尺度定律

最近，大语言模型（LLMs）被广泛应用于各种任务中，引起了人们对研究放大LLMs对性能影响的关注不断增加。现有作品，被称为Scaling Laws，发现LLMs的损失随着模型大小、计算预算和数据集大小呈幂律增长。然而，LLMs在整个训练过程中的性能尚未被触及。在本文中，我们提出了时间尺度定律的新概念，并研究了从时间维度对LLMs的损失。我们首先研究了每个token位置上损失的不平衡，并在模型规模和训练阶段之间建立了一个倒数定律。然后通过研究倒数定律参数的时间模式得出了时间尺度定律。对分布内（IID）数据和分布外（OOD）数据的结果表明，我们的时间尺度定律能够准确预测LLMs在未来训练阶段的性能。此外，时间尺度定律揭示了LLMs在不同token位置上学习均匀，尽管存在损失不平衡现象。对不同规模预训练LLMs的实验表明，这一现象验证了生成语言模型的默认训练范例，即在训练过程中不使用重新加权策略。总的来说，时间尺度定律为LLMs的预训练提供了更深入的见解。

http://arxiv.org/abs/2404.17785v1

CRISPR-GPT：一种用于自动设计基因编辑实验的LLM智能体

基因组工程技术已经改变了生物医学研究，使得对遗传信息进行精确修改成为可能。然而，要创建一个高效的基因编辑系统需要对CRISPR技术有深入的了解，以及复杂的实验系统。虽然大型语言模型(LLMs)在各种任务中表现出了潜力，但它们通常缺乏特定知识，难以准确解决生物设计问题。在这项工作中，我们介绍了CRISPR-GPT，一个带领域知识和外部工具的LLM智能体，用于自动化和增强基于CRISPR的基因编辑实验的设计过程。CRISPR-GPT利用LLMs的推理能力来促进选择CRISPR系统、设计引导RNA、推荐细胞传递方法、起草协议以及设计确认编辑结果的验证实验的过程。我们展示了CRISPR-GPT辅助非专家研究人员从头开始进行基因编辑实验的潜力，并验证了智能体在实际用例中的有效性。此外，我们探讨了自动基因编辑设计所涉及的伦理和监管考虑，强调了对这些工具负责任和透明使用的必要性。我们的工作旨在弥合初学者生物研究人员与CRISPR基因组工程技术之间的差距，并展示了LLM智能体在促进复杂生物发现任务中的潜力。

http://arxiv.org/abs/2404.18021v1

高效的大语言模型推断与Kcache

大语言模型（LLMs）在AI应用中产生了深远影响，特别是在长文本理解和生成领域。KV 缓存技术是行业中最广泛使用的技术之一，通过缓存以前计算过的 KV 状态，确保高效的序列生成。然而，它也引入了显着的内存开销。我们发现 KV 缓存并非必需，并提出了一种新颖的KCache 技术，以缓解LLMs 推理过程中的内存瓶颈问题。KCache 可以直接用于推理，无需任何训练过程。我们的评估表明，KCache将流行LLMs的吞吐量提高了40％，同时保持准确性。

http://arxiv.org/abs/2404.18057v1

ComposerX: 基于LLMs的多智能体符号音乐创作

音乐创作代表了人类的创造力，本身是一项需要理解和产生具有长依赖性和和谐约束的信息的复杂任务。虽然当前的大语言模型在STEM学科中表现出色，但在这项任务中往往失败，即使装备了现代技术如上下文学习和思维链。为了进一步探索和增强大语言模型在音乐创作中的潜力，我们提出了ComposerX，一个基于智能体的符号音乐生成框架。我们发现，采用多智能体方法显著提高了GPT-4音乐作曲的质量。结果显示，ComposerX能够生成具有引人入胜旋律的连贯多声部音乐作品，并遵循用户指令。

http://arxiv.org/abs/2404.18081v1

MileBench: 在长上下文中对多模态语言模型进行基准测试

尽管多模态大语言模型（MLLMs）在基准测试中取得了进展和令人印象深刻的性能，但由于基准测试的有限范围，它们在现实世界、长文本和多图像任务中的有效性尚不清楚。现有的基准测试通常侧重于单图像和短文本样本，并且在评估多图像任务时，要么限制图像数量，要么侧重于特定任务（例如时间序列字幕生成），可能模糊了MLLMs的性能挑战。为了解决这些局限性，我们引入了MileBench，一项旨在测试MLLMs多模态长上下文能力的开创性基准测试。这一基准测试不仅包括多模态长上下文，还涉及需要理解和生成的多个任务。我们建立了两组独特的评估集，分别为诊断性和真实性，系统评估MLLMs的长上下文适应能力以及它们在长上下文场景中完成任务的能力。我们从测试20个模型获得的实验结果表明，尽管封闭源的GPT-4（Vision）和Gemini 1.5优于其他模型，但多数开源MLLMs在长上下文情况下表现不佳。有趣的是，性能差距往往随着图像数量的增加而扩大。我们强烈鼓励加强研究工作，提升MLLMs在长上下文情景中的能力，特别是涉及多图像的情况。

http://arxiv.org/abs/2404.18532v1

TextGram：面向更好的领域自适应预训练

为了绿色人工智能，关键是测量和减少在训练大型语言模型期间排放的碳足迹。在自然语言处理中，对Transformer模型进行预训练需要大量计算资源。这种预训练涉及使用大量文本数据来获取执行下游任务所需的先验知识。因此，重要的是我们选择正确的数据形式，即领域特定数据，以获得与我们领域特定任务对齐的最佳结果。尽管在大规模无监督数据上训练成本高昂，但通过在预训练之前执行数据选择步骤可以进行优化。选择重要数据减少了空间开销和预训练模型所需的大量时间，同时保持恒定的准确性。我们研究现有的选择策略，并提出我们自己的领域自适应数据选择方法-TextGram-有效地从大型语料库中选择必要数据。我们比较和评估了文本分类任务的微调模型在有无数据选择的情况下的结果。我们展示了所提出的策略相比其他选择方法效果更好。

http://arxiv.org/abs/2404.18228v1

更多强化学习，更多信任？关于人类偏好调整对大语言模型可靠性的影响

随着大型语言模型（LLMs）的发展激增，它们在认知任务上的性能得到了提升，也迫使我们迫切需要将这些模型与人类价值观对齐，以便安全地利用它们的力量。虽然像强化学习从人类反馈中学习（RLHF）等偏好学习算法在对齐人类偏好方面效果显著，但它们被假设能提高模型的可信度却尚未得到充分验证。为了达到这一目的，本研究调查了已经与通用偏好数据（有益性和无害性）对齐的模型在五个可信度纵向上的表现：有毒性、刻板偏见、机器伦理、真实性和隐私。在模型对齐方面，我们专注于三种广泛使用的RLHF变体：监督微调（SFT）、近端策略优化（PPO）和直接偏好优化（DPO）。通过广泛的实证研究，我们发现RLHF对可信度的改善远非必然，偏好数据、对齐算法和特定可信度方面之间存在复杂的相互作用。我们的研究结果强调了模型对齐需要更加细致的方法。通过揭示模型对齐中这些组件内部的复杂动态，我们希望这项研究能指导社区朝着开发既能力强又值得信赖的语言模型的方向前进。

http://arxiv.org/abs/2404.18870v1

DPO遇到PPO：针对RLHF的强化token优化

在经典的从人类反馈中学习强化学习（RLHF）框架中，采用Proximal Policy Optimization（PPO）来学习稀疏的句子级奖励——这在传统的深度强化学习中是一个具有挑战性的场景。尽管PPO在最先进的闭源大型语言模型（LLMs）对齐方面取得了巨大成功，但它的开源实现仍然存在很大的改进空间，许多研究表明这一点。为解决这些问题，我们提出了一个将RLHF问题建模为马尔可夫决策过程（MDP）的框架，从而能够捕捉细粒度的token信息。此外，我们提供了理论洞见，证明了我们的MDP框架优于先前的句子级贪婪制定。在这个框架下，我们引入了一种算法，称为强化Token优化（RTO），它从偏好数据中学习token奖励函数，并基于这个学习的token奖励信号进行策略优化。从理论上讲，RTO被证明具有能够高效找到接近最优策略的能力。在实际实施中，RTO创新地集成了直接偏好优化（DPO）和PPO。DPO，最初源自稀疏的句子奖励，出人意料地为我们提供了对响应质量的token级别描述，这被无缝地整合到我们后续的PPO训练阶段中。广泛的实际对齐实验验证了所提方法的有效性。

http://arxiv.org/abs/2404.18922v1

信号

银河通用和智源入选中关村论坛重大科技成果发布

Galbot + 新一代多模态基础模型Emu，入选中关村论坛科技重大成果发布

以科技部新一代人工智能发展研究中心为牵头单位

Emu2在少样本多模态理解多模态预训练大模型，在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能

https://mp.weixin.qq.com/s/w1FeOTy50mJKlJAN7qHiWw

LlamaIndex通过结合知识图谱增强Agent记忆能力

基于与Agent的互动以及对话历史，自动的生成知识图谱以及相关列表。还值得注意的一个点是加了时间线分析，可以看到记忆板块检测的用户兴趣是如何随时间迁移。

https://twitter.com/llama_index/status/1784604356224164186

Llama-3-8B被扩展到1048k上下文（非官方）

Twitter link:

https://twitter.com/BrianRoemmele/status/1785052732174594479

Huggingface Model Card:

https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k

Make Your LLM Fully Utilize the Context

INformation-INtensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle.

(1) fine-grained information awareness on a short segment (∼128 tokens) within a synthesized long context (4K−32K tokens), and (2) the integration and reasoning of information from two or more short segments.

https://arxiv.org/pdf/2404.16811

HuggingFace&Github

TELA

TELA 是一种创新性的三维人体服装生成方法。它采用分层的人体和服装表示，并使用渐进式的优化策略，先生成最小化的人体模型，然后逐层添加服装。该方法提出了一种分层组合渲染技术，同时使用新的损失函数来帮助解耦人体和服装模型。与之前的整体建模方法相比，TELA能够更好地实现服装和人体的分离，从而支持更灵活的服装编辑应用，如虚拟试穿等。

http://jtdong.com/tela_layer/