大模型日报（9月4日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

OLMoE：开放的混合专家语言模型

我们介绍了OLMoE，这是一种充分开放的、最先进的语言模型，利用了稀疏的专家混合模型（MoE）。OLMoE-1B-7B具有70亿（B）参数，但每个输入token仅使用1B。我们在5万亿token上对其进行了预训练，并进一步调整以创建OLMoE-1B-7B-Instruct。我们的模型在所有具有类似活跃参数的可用模型中表现出色，甚至超过了像Llama2-13B-Chat和DeepSeekMoE-16B这样更大的模型。我们展示了关于MoE训练的各种实验，分析了我们模型中的路由，表明高度专业化，并公开了我们工作的所有方面：模型权重、训练数据、代码和日志。

http://arxiv.org/abs/2409.02060v1

通过语料库检索和增强生成任务特定的合成数据集：CRAFT您的数据集

建立高质量的专业任务数据集是一个耗时且资源密集的过程，通常需要专业领域知识。我们提出了用于微调的语料库检索和增强（CRAFT）的方法，该方法可以生成合成数据集，只需少量用户编写的少样本示例来展示所需执行的任务。在给定少样本示例的情况下，我们使用大规模公共网络爬取的语料库和基于相似性的文档检索来找到其他相关的人类编写的文档。最后，针对指令调整的大型语言模型（LLMs）将检索到的文档增强成自定义格式的任务样本，然后可以用于微调。我们展示了CRAFT可以有效地为四种不同任务生成大规模特定任务的训练数据集：生物问题回答（QA）、医学QA和常识QA以及摘要。我们的实验表明，基于CRAFT的模型在QA任务上表现优异，或者达到与一般LLMs相当的性能，而基于CRAFT的摘要模型比在人类策划数据上训练的模型表现出46个偏好点的优势。

http://arxiv.org/abs/2409.02098v1

编织黄金线：在大语言模型中对长形生成进行基准测试

长文本语言模型（LMs）的能力通常通过“草堆中的针”（NIAH）测试来评估，这包括旨在评估模型在大文本序列（“草堆”）中识别特定信息（“针”）的能力的任务。虽然这些基准测试衡量了模型对长文本输入序列的理解程度，但并不能有效地衡量长篇文本生成的质量–这对于设计提案和创意写作等应用而言至关重要。为了弥补这一差距，我们引入了一个新的长篇文本评估基准，名为Spinning the Golden Thread（SGT），它测试模型在生成的长文本序列中识别特定事件的能力。在这个基准测试中，我们要求长文本LMs创作必须包含特定事件或约束的长篇文本，并评估它们整合这些元素的能力。我们在四种不同的场景、三种类型的提示说明和两种不同的生成长度设定（16K和32K）下评估了十个长文本LMs。尽管这些模型在NIAH基准测试上表现良好，但没有一个模型在Spinning the Golden Thread上表现令人满意，这引发了对它们生成连贯长篇文本并遵循说明能力的担忧。此外，随着生成文本的长度增加，所有模型的表现都出现显著下降。

http://arxiv.org/abs/2409.02076v1

如何制作有效的长篇上下文多跳指令数据集？见解和最佳实践

近期大语言模型（LLMs）在扩展上下文窗口方面取得了重大进展，显著提高了信息提取、问答和复杂规划等任务的表现。为了在长上下文任务中取得成功，已经进行了大量工作来通过合成数据增强模型的长上下文能力。现有方法通常利用自我指导框架为更好地提高长上下文能力生成指导微调数据。然而，我们的初步实验表明，不到35％的生成样本是多跳的，并且超过40％的质量欠佳，限制了全面的理解和深入研究。为了提高合成数据的质量，我们提出了多智能体交互多跳生成（MIMG）框架，包括质量验证智能体、单跳问题生成智能体、多问题采样策略和多跳问题合并智能体。该框架提高了数据质量，高质量、多跳和多样化数据的比例超过85％。此外，我们通过广泛实验系统地研究了文档选择、问题合并和验证技术的策略。我们的发现表明，我们合成的高质量长上下文指导数据显著提升了模型性能，甚至超过了在更多人工注释数据上训练的模型。我们的代码可在以下链接找到：https://github.com/WowCZ/LongMIT。

http://arxiv.org/abs/2409.01893v1

微型智能体: 边缘功能调用

最近，大型语言模型(LLMs)促进了先进智能系统的发展，这些系统可以整合各种工具和API来通过函数调用满足用户查询。然而，由于LLMs通常需要云基础设施，因为它们的模型规模和计算需求巨大，因此尚未探索将这些LLMs部署在边缘上的可能性。为此，我们提出了TinyAgent，一个用于训练和部署任务特定小语言模型智能体的端到端框架，该智能体可以进行功能调用来驱动边缘智能系统。我们首先展示了如何通过LLMCompiler框架为开源模型实现准确的功能调用。然后，我们系统地策划了一个高质量的功能调用数据集，用于微调两个小语言模型TinyAgent-1.1B和7B。为了高效推理，我们引入了一种新颖的工具检索方法来减少输入提示长度，并利用量化进一步加速推理速度。作为驱动应用程序，我们展示了一个可在苹果MacBook上执行用户命令的本地类似Siri的系统，可以通过文本或语音输入执行用户命令。我们的结果表明，我们的模型可以实现甚至超过类似GPT-4-Turbo的更大模型的功能调用能力，同时完全部署在边缘。我们开源我们的数据集、模型和可安装软件包，并为我们的MacBook助理智能体提供演示视频。

http://arxiv.org/abs/2409.00608v1

长上下文泛化的高效配方：大语言模型中的长文本泛化

大型语言模型（LLMs）在处理长上下文任务时面临重大挑战，因为它们在预训练期间的有效上下文窗口大小有限，从而限制了其在扩展序列上的泛化能力。与此同时，通过后预训练方式将LLMs的上下文窗口扩展会消耗大量资源。为解决此问题，我们引入了LongRecipe，一种有效的训练策略，用于扩展LLMs的上下文窗口，包括影响力token分析、位置索引转换和训练优化策略。LongRecipe能够利用长序列，只需目标上下文窗口大小的30%，与全序列训练相比，减少超过85%的计算训练资源。此外，LongRecipe还保留了原始LLM在一般任务中的能力。最终，我们可以将开源LLMs的有效上下文窗口从8k扩展到128k，并在仅使用单个GPU进行一天的专门训练后，实现接近于GPT-4的性能。我们的代码发布在链接中。

http://arxiv.org/abs/2409.00509v1

序列到序列奖励建模：通过语言反馈改进RLHF

摘要：将大语言模型（LLMs）的行为与人类意图和价值保持一致仍然是一个关键挑战。从人类反馈中强化学习（RLHF）通过训练一个基于人类偏好的奖励模型（RM）来对齐LLMs，并微调LLMs以最大化RM反馈。尽管其有效性和普及性，RLHF容易出现偏向局部优化的问题。为了缓解这一问题，我们提出了一种新的“序列到序列（seq2seq）奖励建模”方法。该方法的关键见解是，从语言反馈而不是标量反馈中学习可以提高RLHF的效果而无需额外的注释。我们用序列MLE取代了奖励建模目标，这使得能够获取更丰富和精细的语言反馈而无需额外的注释、模型或训练阶段。我们的实验证明了其有效性，特别是在单轮安全对话中减少了拒绝回应范式和文本摘要任务中的长回应偏见。我们进一步分析显示，seq2seq RM在3个自然语言处理任务中提高了2B和7B LLMs的RLHF性能，实现了平均胜率76.9％。我们进一步展示了，在触发器超出分布的情况下，seq2seq RM仍然可以提高RLHF的性能。

http://arxiv.org/abs/2409.00162v1

学习为语言建模长期规划

现代语言模型通过考虑过去的文本通过强大的注意力机制等方法来预测序列中的下一个令牌。然而，语言模型没有明确的机制允许它们花费计算时间来规划远距离未来的文本，导致子优化的令牌预测。在本文中，我们提出一个规划器，可以预测多个句子的长远未来潜在计划。通过一次采样多个计划，我们可以使语言模型依赖于文本继续分布的准确近似，从而提高下一个令牌的预测准确性。实际上，这允许通过交换计算时间获得预测准确性。

http://arxiv.org/abs/2409.00070v1

ToolACE：赢得LLM函数调用点

标题：Transformer-based Agent for Emergent Tasks in Multi-Agent Reinforcement Learning

Transformer智能体涌现任务在多智能体强化学习中的应用

标题：Efficient Generalization with Unsupervised Data for Token-based Models

利用无监督数据对基于token的模型进行有效的泛化

摘要：函数调用显著扩展了大语言模型的应用边界，高质量和多样化的训练数据对于释放此功能至关重要。然而，真实的函数调用数据很难收集和标注，而现有管道生成的合成数据往往缺乏覆盖率和准确性。在本文中，我们提出了ToolACE，一种设计用于生成准确、复杂和多样化工具学习数据的自动智能代理管道。ToolACE利用一种新颖的自我演进合成过程来筛选出包含26,507个多样化API的综合API池。对话进一步通过多个智能体之间的互动生成，受到形式化思维过程的指导。为确保数据准确性，我们实现了一个结合基于规则和基于模型的检查的双层验证系统。我们证明，即使只有8B参数的模型在我们合成的数据上训练，也能在伯克利函数调用榜单上实现最先进的性能，与最新的GPT-4模型相媲美。我们的模型和部分数据可以在https://huggingface.co/Team-ACE 公开获取。

http://arxiv.org/abs/2409.00920v1

HuggingFace&Github

postiz-app

Postiz 是一个全面的社交媒体管理工具，提供了发布、分析、团队协作等功能。它是一个开源项目，可以计划和发布社交媒体帖子，并拥有多种 AI 辅助功能；提供数据分析功能，帮助用户了解帖子的表现；现在也支持团队协作，可以与其他成员交换或购买帖子。希望可以为用户提供一个替代 Buffer.com、Hypefury 等工具的解决方案