大模型日报（6月4日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

D-CPT法则：面向领域的大语言模型持续预训练缩放定律

持续预训练（CPT）在大语言模型（LLMs）上被广泛应用于扩展模型对特定下游领域（如数学和代码）的基本理解。对于特定领域LLMs的CPT，一个重要问题是如何选择通用语料库（例如Dolma，Slim-pajama）和特定领域语料库之间的最佳混合比例。现有方法通常通过在一组混合比例上进行网格搜索来采用费时费力的人力工作，这需要高GPU训练消耗成本。此外，我们无法保证所选比例对特定领域是最佳的。为解决现有方法的局限性，受性能预测的Scaling Law启发，我们提出了调查特定领域持续预训练（D-CPT Law）的Scaling Law来确定不同大小的LLMs的可接受训练成本的最佳混合比例。通过拟合D-CPT Law，我们可以轻松预测任意混合比例、模型大小和数据集大小的通用和下游性能，使用有限实验中的小规模训练成本。此外，我们还将标准的D-CPT Law扩展到跨领域设置，并提出了交叉域D-CPT Law来预测目标领域的D-CPT Law，在目标领域只需要非常小的训练成本（约为正常训练成本的1%）。对六个下游领域的全面实验结果展示了我们提出的D-CPT Law和交叉域D-CPT Law的有效性和泛化性。

http://arxiv.org/abs/2405.17976v1

数据集增长

深度学习受益于不断增长的可用数据。与此同时，有效地处理不断增长的数据规模已经成为一个挑战。公开可获取的数据来自不同来源，质量各异，在当今数据规模下，进行手动去噪和去冗余是不切实际的。已有的清洗/选择数据的技术主要针对离线设置，针对其中一种清洁度和冗余问题。但实际情况下，数据以指数速度增长，两个问题都存在。为了解决这一挑战，我们提出了InfoGrowth，一种用于数据清洗和选择的高效在线算法，从而产生一个与清洁度和多样性意识保持同步的不断增长的数据集。InfoGrowth可以提高单模态和多模态任务的数据质量/效率，具有高效且可伸缩的设计。其框架使其在真实世界数据引擎中实用。

http://arxiv.org/abs/2406.01375v1

MMLU-Pro：更强大且具挑战性的多任务语言理解基准

在大规模语言模型时代，类似于Massive Multitask Language Understanding（MMLU）的基准测试在推动AI在各领域语言理解和推理方面的能力所能达到的极限方面起到了关键作用。然而，随着模型性能的持续提升，它们在这些基准测试上的表现已经开始趋于稳定，这使得越来越难以区分模型能力上的差异。本文引入了MMLU-Pro，一个增强的数据集，旨在通过整合更具挑战性、专注于推理的问题，并将选项选择从四个扩展到十个，扩展主要基于知识的MMLU基准测试。此外，MMLU-Pro消除了MMLU中的琐碎和嘈杂问题。我们的实验结果表明，与MMLU相比，MMLU-Pro不仅提高了挑战，导致准确率下降了16%至33%，而且在不同提示下展现出更大的稳定性。在测试了24种不同提示风格的情况下，模型得分对提示变化的敏感度从MMLU中的4-5%降至MMLU-Pro中的仅为2%。此外，我们发现，利用Chain of Thought (CoT)推理的模型在MMLU-Pro上的表现优于直接回答问题，这与原始MMLU上的发现形成鲜明对比，表明MMLU-Pro包含了更复杂的推理问题。我们的评估结果证实，MMLU-Pro是一个更具区分性的基准测试，有助于更好地跟踪该领域的进展。

http://arxiv.org/abs/2406.01574v1

R2C2-Coder：增强和对比代码大语言模型在真实世界代码库级别的代码补全能力

摘要：最近几年，代码补全模型取得了显著进展。最近，存储库级别的代码补全在现代软件开发中引起了更多关注，并提出了几种基线方法和基准。然而，现有的存储库级别代码补全方法通常未能充分利用项目存储库的广泛上下文，如相关文件和类层次结构的复杂性。此外，现有的基准通常集中在有限的代码补全场景，无法很好地反映现有方法的存储库级别代码补全能力。为了解决这些局限性，我们提出了R2C2-Coder来增强和评估代码大语言模型在实际存储库级别上的代码补全能力，其中R2C2-Coder包括代码提示构建方法R2C2-Enhance和精心设计的基准R2C2-Bench。具体来说，在R2C2-Enhance中，我们首先构建候选检索池，然后通过从检索池中检索来为每个补全光标位置组装完成提示。其次，基于R2C2-Enhance，我们可以构建一个更具挑战性和多样性的R2C2-Bench，并提出上下文扰动策略来很好地模拟现实世界的存储库级别代码补全。对多个基准的广泛结果证明了我们的R2C2-Coder的有效性。

http://arxiv.org/abs/2406.01359v1

LongSkywork: 一个高效拓展大语言模型上下文长度的训练方法

我们引入了LongSkywork，一个能够处理高达200,000个token的长文本大语言模型（LLM）。我们提供了一个培训配方，可以有效地扩展LLM的上下文长度。我们确定增强长上下文处理能力的关键元素是在标准的SFT阶段后加入一个长上下文SFT阶段。仅仅200次迭代就能将标准SFT模型转换为长上下文模型。为了减少为长上下文语言建模收集和注释数据的工作量，我们开发了两种新方法来创建合成数据。这些方法应用在持续预训练阶段以及监督微调（SFT）阶段，极大地提高了我们长上下文LLM的训练效率。我们的研究发现，合成的长上下文SFT数据在一定程度上可以超越人类策划的数据性能。LongSkywork在各种长上下文基准测试中表现出色。在Needle测试中，一个用于长上下文信息检索的基准测试中，我们的模型在多个上下文范围上实现了完美的准确性。此外，在实际应用场景中，LongSkywork-13B表现与领先的长上下文模型Claude2.1相当，突出了我们提出的方法的有效性。

http://arxiv.org/abs/2406.00605v1

通用上下文提示全循环模型的逼近

零样例学习和上下文学习使得在没有模型微调的情况下解决任务成为可能，这对于发展生成模型解决方案至关重要。因此，理解预训练模型是否可以被提示以逼近任何函数是至关重要的，即它是否是一个通用的上下文逼近器。我们展示了RNNs、LSTMs、GRUs、线性RNNs以及线性门控结构（如Mamba和Hawk/Griffin）也可以作为通用的上下文逼近器。我们介绍了一种名为LSRL的编程语言，它可以编译到这些完全循环的架构中。LSRL对于进一步研究完全循环模型可能具有独立的兴趣。我们还研究了乘法门控的作用，并观察到包含这种门控的架构（如LSTMs、GRUs、Hawk/Griffin）可以更加稳定地实现某些操作，使它们成为实际上下文通用逼近的更有竞争力的选择。

http://arxiv.org/abs/2406.01424v1

如何理解整个软件库？

最近，基于大语言模型（LLM）的智能体推动了自动软件工程（ASE）的重要发展。尽管已经验证了有效性，现有方法的设计主要集中在代码的局部信息，例如问题、类和函数，导致捕捉软件系统中的全局背景和相互依赖性存在局限性。根据人类软件工程开发者的实践经验，我们认为对整个存储库的全面理解将是ASE的关键路径。然而，理解整个存储库会带来各种挑战，例如极长的代码输入、杂乱的代码信息、复杂的依赖关系等。为此，我们开发了一种名为RepoUnderstander的新型ASE方法，通过指导智能体全面理解整个存储库。具体来说，我们首先将整个存储库的关键信息压缩成存储库知识图，以自顶向下的方式减少存储库的复杂性。随后，我们通过提出基于蒙特卡洛树搜索的存储库探索策略，赋予了智能体全面理解整个存储库的能力。此外，为了更好地利用存储库级别的知识，我们指导智能体进行总结、分析和规划。然后，他们可以操纵工具动态获取信息并生成补丁以解决真实世界中的GitHub问题。大量实验证明了提出的RepoUnderstander的优越性和有效性。与SWE-agent相比，在SWE-bench Lite基准上取得了18.5%的相对改进。

http://arxiv.org/abs/2406.01422v1

用扩散模型解读甲骨文语言

自大约3000年前中国的商代起源，甲骨文是语言史上的重要里程碑之一，早于许多已建立的书写系统。尽管已发现成千上万的铭文，但仍有大量的甲骨文尚未破译，给这种古老语言笼罩了一层神秘的面纱。现代人工智能技术的出现为甲骨文破译提供了新的前沿，挑战了传统依赖大量文本语料库的自然语言处理方法，这是历史语言所不具备的奢侈条件。本文通过采用图像生成技术，特别是通过开发甲骨文解密器（OBSD）的做法，介绍了一种新颖的方法。利用条件扩散策略，OBSD为破译提供了重要线索，开辟了AI辅助分析古代语言的新途径。为验证其有效性，对甲骨文数据集进行了大量实验，定量结果证明了OBSD的有效性。代码和破译结果将在https://github.com/guanhaisu/OBSD提供。

http://arxiv.org/abs/2406.00684v1

HuggingFace&Github

rejax

rejax 是一个基于 Jax 的强化学习算法库，它专注于提高训练过程的速度和可扩展性。它允许用户利用 Jax 的各种功能，如 jit、vmap 和 pmap，来加速整个训练流程。它实现了多种流行的强化学习算法，如 PPO、SAC 和 DQN 等，并具有可修改性，使用户可轻松扩展或定制算法。此外，它还提供了灵活的回调机制，方便用户进行日志记录和监控。

https://github.com/keraJLi/rejax

Animate Anyone

Animate Anyone 是一个非官方的视频生成模型，可以根据输入的图像或视频生成动画人物。这个开源项目提供了预训练权重和推理代码，受到

MooreThreads/Moore-AnimateAnyone

项目的启发，做了一些改进。项目提供了快速开始指南，包括环境搭建、权重下载和推理运行等步骤。同时还支持将视频转换为关键点序列，并提供在线演示平台。

https://github.com/novitalabs/AnimateAnyone

CLIPPyX

CLIPPyX 是一个强大的系统范围内的图像搜索和管理工具，集内容、文本和视觉相似性搜索于一体，无论图像位置或文件名，都可以轻松定位所需图像;它利用 CLIP、OCR 和文本嵌入模型实现语义层面的图像检索，并提供 CLIPPyX 服务器接收查询、返回结果，支持高效的替代模型，是一款功能丰富、易用的图像管理神器。

https://github.com/0ssamaak0/CLIPPyX