大模型日报（4月19日学术篇）

欢迎观看大模型日报，进入大模型日报群和空间站（活动录屏复盘聚集地）请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

论文

Reka Core Flash, Edge：一系列强大的多模式语言模型

我们介绍了Reka Core，Flash和Edge，这是Reka从头开始训练的一系列强大的多模态语言模型。Reka模型能够处理和推理文本、图像、视频和音频输入。这份技术报告讨论了训练这些模型的细节，并提供了全面的评估结果。我们展示了Reka Edge和Reka Flash不仅是最先进的，而且胜过许多更大的模型，在各自的计算类别中提供了超额价值。与此同时，我们最有能力和最大的模型Reka Core，在自动评估和盲人评估方面接近最佳前沿模型。在图像问答基准测试（例如MMMU，VQAv2）上，Core表现出色，与GPT4-V竞争。同时，在多模态聊天中，Core在盲目的第三方人为评估设置中排名第二，胜过其他模型，如Claude 3 Opus。在文本基准测试中，Core不仅在一些既定基准测试中（例如MMLU，GSM8K）与其他前沿模型竞争，而且在人为评估上胜过GPT4-0613。在视频问答（感知测试）中，Core超过了Gemini Ultra。这些模型已经在http://chat.reka.ai上投入生产。您还可以在http://showcase.reka.ai找到一些非挑选的定性示例展示。

http://arxiv.org/abs/2404.12387v1

通过想象、搜索和批评实现LLM自我改进

尽管大语言模型（LLMs）在各种任务上显示出了令人印象深刻的能力，但它们仍然在涉及复杂推理和规划的情况下存在困难。最近的工作提出了先进的提示技术，并强调了通过高质量数据进行微调来增强LLMs的推理能力的必要性。然而，这些方法本质上受到数据可用性和质量的限制。因此，在这种情况下，自我纠正和自我学习涌现为可行的解决方案，采用策略使LLMs能够改善其输出并从自我评估的奖励中学习。然而，LLMs在自我改进其响应方面的有效性，特别是在复杂的推理和规划任务中，仍然存疑。在本文中，我们介绍AlphaLLM用于LLMs的自我改进，它将蒙特卡洛树搜索（MCTS）与LLMs相结合，建立了一个自我改进的循环，从而增强了LLMs的能力，而无需额外的注释。受AlphaGo成功启发，AlphaLLM解决了将MCTS与LLM结合用于自我改进的独特挑战，包括数据稀缺性，语言任务搜索空间的广阔性以及语言任务中反馈的主观性质。AlphaLLM包括提示综合组件，专为语言任务量身定制的高效MCTS方法，以及三个评论模型，用于提供精确的反馈。我们在数学推理任务中的实验结果表明，AlphaLLM显着增强了LLMs的性能，而无需额外的注释，展示了LLMs自我改进的潜力。

http://arxiv.org/abs/2404.12253v1

MLCommons AI安全基准测试v0.5

本文介绍了AI Safety Benchmark v0.5，由MLCommons AI Safety Working Group创建。该基准旨在评估使用chat-tuned语言模型的AI系统的安全风险。我们引入了一种原则性方法来指定和构建基准，v0.5仅涵盖一个用例（成年人与通用助手用英语对话），以及有限的人物设定（即典型用户、恶意用户和易受攻击用户）。我们创建了一个包含13种危险类别的新分类法，其中v0.5基准中有7种进行测试。我们计划在2024年底发布AI Safety Benchmark版本1.0。v1.0基准将为AI系统的安全提供有意义的洞察。然而，v0.5基准不应用于评估AI系统的安全性。我们努力充分记录了v0.5的限制、缺陷和挑战。这个发布的AI Safety Benchmark v0.5包括（1）一种原则性方法，用于指定和构建基准，包括用例、被测试系统类型（SUTs）、语言和上下文、人物设定、测试以及测试项目；（2）一个包含13种危险类别的分类法，带有定义和子类别；（3）对七种危险类别的测试，每种包含一组独特的测试项目，即提示。总共有43,090个测试项目，我们使用模板创建；（4）一个对AI系统进行基准测试的评分系统；（5）一个名为ModelBench的开放平台和可下载工具，可用于评估AI系统在基准上的安全性；（6）一个基准性能评估报告示例，对超过一打公开可用的chat-tuned语言模型的性能进行基准测试；（7）基准测试的测试规范。

http://arxiv.org/abs/2404.12241v1

OpenBezoar: 在混合指令数据上训练的便宜小巧的开放模型

摘要：对于各种不同下游任务进行指令微调预训练LLMs已经取得了显著成功，引起了学术界和实践者的兴趣。为了确保这些微调的LLMs符合人类偏好，涌现了RLHF和DPO等技术。同时，对于模型的参数数量越来越感兴趣。在这项工作中，我们以OpenLLaMA 3Bv2作为基础模型，描述了用于微调OpenBezoar系列模型的配方。在这个配方中：我们首先利用Falcon-40B模型的开放和商业非限制性的指令微调变体，在三种方案下生成合成指令微调数据：LaMini-LM、WizardLM/Evol-Instruct（使用databricks-dolly-15k作为种子数据集）和Orca（使用Flan Collection作为种子数据集），然后使用GPT-4作为人类代理来过滤这些生成。接着，我们按顺序采用基于QLoRA的成本效益型有监督微调每种方案。最终生成的检查点进一步通过对HH-RLHF数据集的子集进行微调以最小化分布偏移，然后使用DPO损失获得最终检查点。评估是通过LM Eval Harness任务/指标以及在MT-Bench上使用”LLM-as-a-judge”框架进行的，发现最终检查点”OpenBezoar-HH-RLHF-DPO”在3B参数规模上的性能优于许多模型，甚至在Huggingface Open LLM Leaderboard的一个类别中超过了顶级模型。我们在HuggingFace上发布了”OpenBezoar-SFT”、”OpenBezoar-HH-RLHF-SFT”、”OpenBezoar-HH-RLHF-DPO”检查点，以及我们生成的数据集和代码库。

http://arxiv.org/abs/2404.12195v1

多模型中的顺序组合泛化

大规模多模型的崛起为生成建模和推理的突破性进展铺平了道路，在各种复杂任务中解锁了变革性的应用。然而，一个仍然存在的紧迫问题是它们对更强泛化形式的真实能力，在多模态环境中这一点尚未得到充分探讨。我们的研究旨在通过使用CompAct（Compositional Activities）来检验顺序组合泛化，该数据集在丰富的以自我为中心的厨房活动视频背景下精心构建。我们的数据集中的每个实例都用原始视频素材、自然发生的声音和众包逐步描述的组合表示。更重要的是，我们的设置确保个体概念在训练集和评估集中一贯分布，而它们的组合在评估集中是新颖的。我们对几种单模和多模型进行了全面评估。我们的发现显示，双模和三模型比仅文本的对应部分表现出明显优势。这凸显了多模性的重要性，同时为该领域的未来研究规划了发展轨迹。

http://arxiv.org/abs/2404.12013v1

TriForce：使用分层投机解码无损加速长序列生成

随着大型语言模型（LLMs）在最近广泛用于生成长内容，对于高效的长序列推理支持需求不断涌现。然而，关键-值（KV）缓存作为用于避免重复计算的存储，随着序列长度的增长呈线性增长，已经成为一个关键瓶颈。考虑到LLMs的自回归特性，每生成一个token就要加载整个KV缓存，导致计算核心的低利用率和高延迟。我们介绍了TriForce，一个可扩展到长序列生成的分层推理解码系统。TriForce不仅为Llama2-7B-128K实现了令人印象深刻的加速，还展示了处理更长上下文的可伸缩性。

http://arxiv.org/abs/2404.11912v1

HuggingFace&Github

Welcome Llama 3

Llama 3 是 Meta 公司推出的开放获取 Llama 家族的下一个迭代版本，提供了两种尺寸：8B 用于在消费级 GPU 上高效部署和开发，70B 用于大规模 AI 原生应用程序。这两种尺寸都有基本和指令调整的变体，并且还有一个经过微调的 Llama Guard 2（安全微调）版本。

https://huggingface.co/blog/llama3

UniChat

UniChat 是一个基于 Unity.Sentis 和文本向量嵌入技术的工具，它使得在离线模式下能够基于向量数据库来搜索文本内容。此外，如果用户使用在线模式，UniChat 还包含一个基于 LangChain 的链式工具包，以便在游戏中快速嵌入LLM和Agent。 UniChat 的目标是设计一个能够不偏离开发者想法，同时又比较灵活的对话系统，适用于游戏开发。

https://github.com/AkiKurisu/UniChat

TriForce

TriForce 是一种分层的推测解码系统，可扩展到长序列生成。该方法利用原始模型权重和动态稀疏的键-值（KV）缓存，通过检索作为草案模型，这种模型作为层次结构中的中间层，并通过较小的模型进一步推测，以减少其起草延迟。TriForce 不仅为 Llama2-7B-128K 实现了令人印象深刻的加速，而且在处理更长的上下文方面也展现了可扩展性。