大模型日报（五一特刊 5月1-5日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

长上下文模型的上下文学习：深入探讨

摘要：随着模型上下文长度的不断增加，可以在上下文中提供的示范数量接近整个训练数据集的大小。我们研究了在多个数据集和模型上在极端规模下对上下文学习（ICL）的行为。我们发现，对于许多具有大标签空间的数据集，性能随着数百甚至数千次示范而持续提高。相比之下，示例检索和微调：示例检索在低上下文长度下表现出色，但随着更多示范，收益减少；微调比ICL更加数据饥渴，但有时可以通过额外数据超越长上下文ICL的性能。我们利用这种ICL设置作为一个实验平台，研究了在上下文学习和长上下文模型中的几个特性。我们发现，长上下文ICL对于随机输入的洗牌不太敏感，而短上下文ICL则更为敏感，相同标签示例的分组可能会对性能产生负面影响，并且我们看到的性能提升并非来自于将许多示例一起编码的累积增益。我们得出结论，尽管长上下文ICL可能会出乎意料地有效，但其中大部分收益来自于再次关注相似示例而不是任务学习。

http://arxiv.org/abs/2405.00200v1

野生对话：1M ChatGPT 在野外的交互日志

聊天机器人如GPT-4和ChatGPT目前为数百万用户提供服务。尽管它们被广泛使用，但仍缺乏展示这些工具在实际用户群中如何使用的公共数据集。为了弥补这一缺口，我们免费提供ChatGPT访问权限给在线用户，以交换他们的积极、同意的允许，匿名收集他们的聊天记录和请求标头。基于此，我们编制了WildChat，一个包含100万用户-ChatGPT对话的语料库，包括超过250万次交互轮次。我们将WildChat与其他流行的用户-聊天机器人交互数据集进行比较，发现我们的数据集提供了最多样化的用户提示，包含最多种语言，并展示了研究人员研究有害用例的最丰富多样性。除了带时间戳的聊天记录，我们丰富了数据集的人口统计数据，包括州、国家和经过哈希处理的IP地址，以及请求标头。这种增强允许更详细地分析不同地理区域和时间维度中的用户行为。最后，因为数据集涵盖了广泛的用例，我们展示了该数据集在微调指令跟随模型中的潜在实用性。WildChat在https://wildchat.allen.ai下发布，采用AI2 ImpACT许可证。

http://arxiv.org/abs/2405.01470v1

将 Llama-3 的上下文在一夜之间扩展十倍

我们通过QLoRA微调，将Llama-3-8B-Instruct的上下文长度从8K扩展到80K。整个训练周期超级高效，在一台8xA800（80G）GPU机器上只需8小时。结果模型在各种评估任务中表现出色，如NIHS、主题检索和长上下文语言理解；同时，也在短上下文中保持了原有的能力。这种显著的上下文延伸主要归因于仅有3.5K个由GPT-4生成的合成训练样本，这表明LLM（大语言模型）本质上具有（但大多被低估的）扩展其原始上下文长度的潜力。事实上，随着计算资源的增加，上下文长度可以远超过80K。因此，团队将公开发布所有资源（包括数据、模型、数据生成管道、训练代码），以促进社区未来的研究：url{https://github.com/FlagOpen/FlagEmbedding}。

http://arxiv.org/abs/2404.19553v1

更好更快的大语言模型：通过多token预测

大语言模型(如GPT和Llama)通常通过下一个token的预测损失进行训练。在这项工作中，我们建议将语言模型训练成一次预测多个未来token，可以提高样本的有效性。具体来说，在训练语料库的每个位置，我们要求模型使用n个独立的输出头在共享模型主干的基础上预测后续的n个token。将多token预测视为一项辅助训练任务，我们测量出在代码和自然语言模型中的下游性能得到改善，而训练时间没有额外开销。这种方法在更大的模型规模上越来越有用，在进行多个时期的训练时仍具吸引力。在生成基准测试中，其增益特别显着，我们的模型在编码等方面始终比强基线表现出色。我们的13B参数模型比可比下一个token模型在HumanEval上解决问题多12％，在MBPP上多17％。对小算法任务的实验表明，多token预测有利于归纳头和算法推理能力的发展。作为额外好处，经过4-token预测训练的模型在推理时速度可快至3倍，即使批处理大小较大。

http://arxiv.org/abs/2404.19737v1

迭代推理偏好优化

迭代优化方法最近显示出在一般指令调优任务上表现良好，但通常对推理任务的改进有限。本研究开发了一种迭代方法，通过优化导致正确答案的胜利与失败推理步骤之间的竞争产生的思维链（CoT）候选者之间的偏好来优化。我们使用修改后的DPO损失进行训练，并添加额外的负对数似然项，发现这是至关重要的。我们展示这种方案重复迭代时，推理能力会提高。尽管仅依赖于训练集中的示例，我们的方法将Llama-2-70B-Chat在GSM8K上的准确率从55.6%提升至81.6%（在32个样本中通过多数投票达到88.7%），在MATH上从12.5%提升至20.8%，在ARC-Challenge上从77.8%提升至86.7%，超过其他不依赖其他数据集的基于Llama-2的模型。

http://arxiv.org/abs/2404.19733v1

工作台：一个逼真工作场景中智能体的基准数据集

我们介绍了WorkBench：一个用于评估智能体在工作场所执行任务能力的基准数据集。WorkBench包含一个带有五个数据库、26个工具和690个任务的沙盒环境。这些任务代表了常见的商业活动，比如发送电子邮件和安排会议。WorkBench中的任务具有挑战性，因为它们需要规划、工具选择，通常需要多个动作。如果一个任务成功执行，一个（或多个）数据库值可能会改变。每个任务的正确结果是独特且明确的，这允许进行稳健的自动化评估。我们将此关键贡献称为结果中心评估。我们在WorkBench上评估了五种现有的ReAct智能体，发现它们成功完成的任务数量最少为3％（Llama2-70B），最佳表现（GPT-4）也仅达到43％。我们进一步发现，智能体的错误可能导致错误的操作，例如发送电子邮件给错误的人。WorkBench揭示了智能体在进行常见商业活动时的弱点，引发了关于它们在高风险工作场所的使用的问题。WorkBench可以作为一个免费资源公开获取，网址是https://github.com/olly-styles/WorkBench。

http://arxiv.org/abs/2405.00823v1

MANTIS：交织的多图像指令调优

近年来，大量的大型多模态模型（LLM）有效地解决了单图像视觉语言任务。然而，它们解决多图像视觉语言任务的能力仍有待提高。现有的多图像LLM（如OpenFlamingo、Emu、Idefics等）主要通过在网页上数亿条嘈杂的交错图像文本数据上进行预训练来获得多图像能力，这既不高效也不有效。本文旨在通过使用学术级资源进行指导微调构建强大的多图像LLM。因此，我们精心构建了包含来自14个多图像数据集的721K个实例的Mantis-Instruct。我们设计了Mantis-Instruct来涵盖不同的多图像技能，如共指，推理，比较，时间理解。我们将Mantis-Instruct与几个单图像视觉语言数据集相结合，训练我们的模型Mantis来处理任何交错的图像文本输入。我们在五个多图像基准和八个单图像基准上评估了训练好的Mantis。尽管只需要学术级资源（即在16xA100-40G上花费36小时），Mantis-8B在所有多图像基准上都能取得最新的性能，比现有最佳的多图像LLM Idefics2-8B平均高出9绝对点。我们观察到Mantis在保留和排除评估基准上表现同样出色。我们进一步在单图像基准上评估Mantis，并展示Mantis能够与CogVLM和Emu2保持强大的单图像性能。我们的结果特别令人鼓舞，因为它表明低成本的指导微调确实比密集的预训练更有效，可以构建出更好的多图像LLM。

http://arxiv.org/abs/2405.01483v1

基于 Transformer 的语言模型内部工作原理初探

最近，对于解释先进语言模型内部工作的研究取得了迅速进展，突显出需要对多年工作中获得的见解进行情境化。本文简要介绍了当前用于解释基于Transformer的语言模型内部工作的技术，重点放在生成式仅解码器架构上。我们最后总结了这些模型实施的已知内部机制，揭示了这一领域中流行方法和活跃研究方向之间的联系。

http://arxiv.org/abs/2405.00208v2

HuggingFace&Github

LLM Datasets

这是一个 LLM 数据库，是训练和微调大型语言模型所需的高质量数据集合。这些数据集应具有准确性、多样性和复杂性等特点，涵盖广泛的主题、上下文和语言用法，以确保训练出强大、准确且多功能的语言模型。这些公开可获取且许可开放的 LLM 数据库是推动自然语言处理技术发展的重要基础设施。研究人员和从业者可以利用这些数据集来评估和改进他们的 LLM 模型，促进语言AI技术的创新与应用。

https://github.com/mlabonne/llm-datasets

Chinese-LLaMA-Alpaca-3

本项目基于Meta最新发布的新一代开源大模型Llama-3开发，是Chinese-LLaMA-Alpaca开源大模型相关系列项目（一期、二期）的第三期。本项目开源了中文Llama-3基座模型和中文Llama-3-Instruct指令精调大模型。这些模型在原版Llama-3的基础上使用了大规模中文数据进行增量预训练，并且使用精选指令数据进行精调，进一步提升了中文基础语义和指令理解能力，相比二代相关模型获得了显著性能提升。

https://github.com/ymcui/Chinese-LLaMA-Alpaca-3

InternVL Family

4月28日，InternVL-Chat 团队发布了 InternVL-Chat-V1-5 的 INT8 版本，同时在 Infographics VQA 基准测试中取得了 SOTA 水平，达到了 75.74 的成绩。这些进步进一步展示了 InternVL-Chat 模型在性能和功能方面的持续提升。

https://github.com/OpenGVLab/InternVL

KAN

Kolmogorov-Arnold Networks (KAN) 是一种受 Kolmogorov-Arnold representation theorem 启发而设计的新型神经网络架构，与传统的多层感知机 (MLP) 有所不同。KAN 的主要特点是将激活函数放置在网络的边上，而不是节点上，这简单的结构变化使得 KAN 相比 MLP 在准确性和可解释性方面都有一定优势。KAN 被认为是 MLP 的一种有前景的替代方案，并且在 GitHub 上提供了相应的开源代码供大家下载安装使用。