大模型日报（5月6-7日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

论文

AlphaMath几乎无需过程监督

最近，大型语言模型（LLMs）的发展极大提高了它们的数学推理能力。然而，这些模型仍然在需要多个推理步骤的复杂问题中遇到困难，经常导致逻辑或数字错误。尽管数值错误可以通过集成代码解释器来解决，但在中间步骤中识别逻辑错误更具挑战性。此外，手动为训练标注这些步骤不仅昂贵，还需要专业知识。在这项研究中，我们引入了一种创新方法，通过利用蒙特卡洛树搜索（MCTS）框架，自动生成过程监督和评估信号，从而消除了手动注释的必要性。实质上，当一个LLM经过良好预训练时，只需要生成数学问题及其最终答案，而不需要解决方案，就可以生成我们的训练数据。我们继续训练一个针对改善LLM在数学领域推理过程的步骤级价值模型。我们的实验证明，通过MCTS增强的LLMs自动生成的解明显提高了模型处理复杂数学推理任务的能力。

http://arxiv.org/abs/2405.03553v1

MAmmoTH2：利用网络数据扩展指令集

摘要：指令微调改进了大型语言模型（LLMs）的推理能力，数据质量和可扩展性是关键因素。我们提出了一种范例，能够从预训练的网络语料库中有效地获取1000万个自然存在的指令数据，以增强LLM的推理能力。我们的方法包括（1）回顾相关文档，（2）提取指令-回复对，以及（3）使用开源LLM对提取的对进行精化。在这个数据集上微调基础LLM，我们构建了MAmmoTH2模型，显著提升了推理基准测试的性能。尤其值得注意的是，MAmmoTH2-7B（Mistral）在数学和GSM8K基准测试上的表现从11%提升到34%和从36%提升到67%，而没有训练任何领域内数据。进一步在公共指令微调数据集上训练MAmmoTH2，得到了MAmmoTH2-Plus，在多个推理和聊天机器人基准测试上取得了业界领先的表现。我们的工作展示了如何在不需昂贵的人工标注或GPT-4蒸馏的情况下，收集大规模高质量的指令数据，为构建更好的指令微调数据提供了新范式。

http://arxiv.org/abs/2405.03548v1

推进 Gemini 多模态医疗能力

许多临床任务需要理解专门数据，如医学影像和基因组学，这些数据通常在通用大型多模态模型中找不到。基于Gemini的多模态模型，我们在新的Med-Gemini系列中开发了几种模型，这些模型继承了Gemini的核心能力，并通过微调2D和3D放射学、组织病理学、眼科学、皮肤科和基因组数据，针对医学用途进行了优化。Med-Gemini-2D根据专家评估，为基于人工智能的胸部X线报告生成设定了新标准，绝对超过两个独立数据集中以往最佳结果1％和12％，其中57％和96％的AI报告正常情况下评估为“等同或更好”，43％和65％的异常情况下也是如此。我们展示了首个基于大型多模态模型的三维计算机断层扫描（CT）体积报告生成，使用Med-Gemini-3D，其中53％的AI报告被认为在临床上是可接受的，尽管还需要进行进一步的研究以达到专家放射科医师报告质量。在报告生成之外，Med-Gemini-2D在X线图像视觉问答（VQA）方面超过以往的最佳性能，并且在X线分析和放射学VQA方面表现良好，在20项任务中有17项超过了SoTA或基线。在组织病理学、眼科学和皮肤科学图像分类方面，Med-Gemini-2D在20项任务中有18项超过了基线并接近任务特定模型的性能。在超越图像领域之外，Med-Gemini-Polygenic优于标准线性多基因风险评分方法用于疾病风险预测，并且泛化到从未接受过训练的有遗传关联的疾病。尽管在安全关键的医疗领域中还需要进一步的发展和评估，我们的结果突出了Med-Gemini在各种医学任务中的潜力。

http://arxiv.org/abs/2405.03162v1

具备 3D 理解能力的语言-图像模型

多模态大语言模型（MLLMs）在各种2D视觉和语言任务中展现出令人难以置信的能力。我们将MLLMs的感知能力扩展到对三维空间中的图像进行实例化和推理。为此，我们首先通过将多个现有的2D和3D识别数据集结合到一个通用的任务公式下（作为多轮问答）开发了一个大规模的预训练数据集LV3D。接下来，我们介绍了一种名为Cube-LLM的新型MLLM，并在LV3D上对其进行预训练。我们表明，纯数据缩放使得Cube-LLM具有强大的三维感知能力，而无需三维特定的架构设计或训练目标。Cube-LLM表现出类似于LLMs的有趣特性：（1）Cube-LLM可以应用思维链提示来从2D上下文信息中改善对3D的理解。（2）Cube-LLM可以遵循复杂和多样的指令，并适应各种输入和输出格式。（3）Cube-LLM可以在视觉上接受提示，比如从专家那里获得2D框或一组候选的3D框。我们在室外基准测试上的实验表明，Cube-LLM在3D实例化推理的Talk2Car数据集上比现有基准提升了21.3个AP-BEV得分，对于复杂的驾驶场景推理的DriveLM数据集提升了17.7个得分。Cube-LLM在一般MLLM基准测试中也表现出色，如在2D grounding的refCOCO基准测试中达到了（87.0）的平均分，以及在复杂推理方面如VQAv2、GQA、SQA、POPE等视觉问答基准测试中也显示出竞争力。我们的项目地址是https://janghyuncho.github.io/Cube-LLM。

http://arxiv.org/abs/2405.03685v1

ImageInWords：解锁超详细图像描述

尽管有着“一幅图胜过千言万语”的古老格言，但为训练视觉语言模型创建准确而超详细的图像描述仍具挑战性。目前的数据集通常具有网络抓取的描述，这些描述又短又粗糙，并且经常包含与视觉内容无关的细节。为了解决这些问题，我们引入了ImageInWords (IIW)，一个精心设计的人在回路注释框架，用于策划超详细的图像描述和由此过程产生的新数据集。我们通过关注数据集的质量及其用于微调的实用性，进行了对框架的验证，考虑到可读性、全面性、特异性、幻觉和人类可比性。我们的数据集在这些维度上显著改进，比最近发布的数据集（+66%）和GPT-4V输出（+48%）都要好。此外，使用IIW数据微调的模型在同一人类评估维度上比之前的工作表现出+31%的优势。鉴于我们经过微调的模型，我们还评估了文本到图像生成和视觉语言推理。我们模型生成的描述可以生成最接近原始图像，这一点由自动化和人类指标共同评判。我们还发现我们的模型生成更具构成丰富性的描述，在ARO、SVO-Probes和Winoground数据集上比最佳基准表现高出最多6%。

http://arxiv.org/abs/2405.02793v1

使用离散傅里叶变换的参数高效微调

最近，低秩自适应（LoRA）在微调基础模型方面引起了很大兴趣。通过将低秩矩阵A和B合并起来表示权重变化，即W=BA，它有效地减少了可训练参数的数量。尽管LoRA取得了进展，但在处理大量定制适应或更大的基础模型时面临存储挑战。在这项工作中，我们旨在通过利用傅立叶变换的强大表达能力来进一步压缩可训练参数。具体来说，我们引入了FourierFT，将W视为空间域中的矩阵，仅学习其谱系数的一小部分。通过训练的谱系数，我们实现了逆离散傅里叶变换以恢复$Delta W$。在经验上，我们的FourierFT方法在各种任务中显示出比LoRA更少的参数并表现相当或更好，包括自然语言理解、自然语言生成、指令调整和图像分类。例如，在LLaMA2-7B模型上进行指令调整时，FourierFT仅使用0.064M可训练参数就超过了LoRA的33.5M。我们的代码已发布在https://github.com/Chaos96/fourierft上。

http://arxiv.org/abs/2405.03003v1

以少搏多：在LLMs的微调热身中的基于原则的数据选择

本文侧重于利用和选择大量未标记的开放数据来预微调预训练的语言模型。目标是在实现期望性能水平的同时，最大限度地减少后续微调所需的昂贵领域特定数据。与小规模应用的许多数据选择算法不同，一些新兴方法确实适用于语言数据规模。然而，它们通常优先考虑与目标分布一致的数据。与先前工作不同，我们的关键思路是选择将预训练分布推向目标分布的数据。在某些条件下，我们展示了这种方法在微调任务中的优越性。我们跨越多个任务（NLU、NLG、零热门）展示了我们方法的有效性，模型规模高达2.7B，一直优于其他选择方法。此外，我们提出的方法比现有技术快得多，可以在单个GPU小时内扩展到数百万个样本。我们的代码已开源（代码库：https://anonymous.4open.science/r/DV4LLM-D761/）。微调在增强各种任务性能方面具有巨大潜力，但相关成本常常限制了其广泛采用；通过这项工作，我们希望为经济高效的微调奠定基础，使其好处更易获取。

http://arxiv.org/abs/2405.02774v1

高稀疏性基础 Llama 模型的高效预训练与部署

大语言模型(LLM)已经彻底改变了自然语言处理（NLP），但其规模造成了计算瓶颈。我们提出一种新方法，可以创建准确、稀疏的性能优秀的LLM的基础版本，这些版本在微调任务中可以实现高达70%的稀疏度。我们通过组合SparseGPT一次性修剪方法和对这些模型进行稀疏预训练，在SlimPajama数据集的子集中混合Python子集和The Stack数据集中实现了LLaMA-27B模型的完全准确性恢复。我们在Cerebras CS-3芯片上展示了由于稀疏性而实现的训练加速，其与理论缩放密切匹配。此外，通过利用Neural Magic的DeepSparse引擎，在CPU上的推理加速高达3倍，在GPU上通过Neural Magic的nm-vllm引擎高达1.7倍。上述收益仅通过稀疏性实现，从而通过额外使用量化进一步实现收益。具体来说，我们展示了在稀疏量化的LLaMA模型上在CPU上的总速度提升高达8.6倍。我们通过在各种具有挑战性的任务中展示这些结果，包括聊天、遵循指令、代码生成、算术推理和摘要，以证明其泛化性。这项工作为快速创建更小更快的LLM铺平了道路，同时不牺牲准确性。

http://arxiv.org/abs/2405.03594v1

Vibe-Eval：用于衡量多模态语言模型进展的苛刻评估集

我们介绍了 Vibe-Eval：一个用于评估多模态聊天模型的新的开放基准和框架。Vibe-Eval 包括了 269 个视觉理解提示，包括 100 个难度较大的，都附有专家编写的标准答案。Vibe-Eval 是开放且具有双重目标的挑战性评估：(i) 为日常任务进行多模态聊天模型的心跳检测，(ii) 严格测试并探究当前前沿模型的能力。值得注意的是，我们的困难集包含了超过 50% 的问题，所有前沿模型都回答错误。我们探讨了在极具挑战性的提示上设计、评估和排名模型的细微差别。我们还讨论了人工和自动评估之间的权衡，并展示了使用 Reka Core 进行自动模型评估大致与人类判断相关。我们提供了免费的 API 访问以进行轻量级评估，并计划对在 Vibe-Eval 的自动评分上表现良好的公共模型进行正式的人工评估。我们发布了评估代码和数据，详见 https://github.com/reka-ai/reka-vibe-eval。

http://arxiv.org/abs/2405.02287v1

REASONS：测试开源和闭源LLM检索和自动引用科学句子的基准

摘要：自动引文生成对情报分析员、网络安全、新闻机构和教育人员至关重要。我们研究了大语言模型（LLMs）是否能够根据两种形式的句子查询生成引用：（a）直接查询，要求LLMs提供给定研究文章的作者姓名；（b）间接查询，要求LLMs在给定不同文章句子时提供被提及文章的标题。为了展示LLM在这项任务中的位置，我们引入了一个名为REASONS的大型数据集，其中包括arXiv上12个最受欢迎科学研究领域的摘要。从大约20K篇研究文章中，我们对公共和专有LLMs得出以下结论：（a）最先进技术，通常被称为类人GPT-4和GPT-3.5，遭受高的通过率（PP）以最小化幻觉率（HR）。在与Perplexity.ai（7B）测试时，他们出乎意料地出现更多错误；（b）增加相关元数据降低了PP并获得最低的HR；（c）使用Mistral的高级检索增强生成（RAG）在间接查询上展现出一致和强大的引用支持，并且与GPT-3.5和GPT-4的性能相匹配。在所有领域和模型中，HR平均降低了41.93％，大多数情况下PP降至0％。在生成质量方面，平均F1分数和BLEU分别为68.09％和57.51％；（d）使用对抗样本进行测试显示LLMs，包括Advance RAG Mistral，难以理解上下文，但这个问题的程度在Mistral和GPT-4-Preview中很小。我们的研究为自动引文生成任务的可靠性贡献了宝贵的见解。

http://arxiv.org/abs/2405.02228v1

通过符合性弃权来减轻LLM的幻觉

我们提出了一个有原则的过程，用于确定大型语言模型（LLM）在一般领域应该何时放弃回答（例如，通过说“我不知道”），而不是诉诸可能“产生幻觉”的荒谬或不正确的答案。我们在先前使用自一致性作为更可靠的模型信心度量的方法的基础上，提出使用LLM本身来自我评估对于给定查询的每个抽样响应之间的相似度。然后，我们进一步利用符合预测技术开发了一种获益于对幻觉率（错误率）具有严格理论保证的弃权程序。在实验中，我们的最终符合弃权方法可可靠地限制各种闭书、开域生成式问答数据集的幻觉率，同时与使用对未知量进行量化的基线相比，在一个具有较长响应的数据集（时间序列）上保持了显著较少保守的弃权率，并在一个具有短答案的数据集（TriviaQA）上实现了可比性能。要自动评估实验，需要确定两个响应在给定问题下是否等效。按照标准做法，我们使用阈值相似函数来确定两个响应是否匹配，但也提供了一种基于符合预测来校准阈值的方法，对匹配预测的准确性提供了理论保证，这可能是一个独立的感兴趣点。

http://arxiv.org/abs/2405.01563v1

理解LLM需要不仅仅是统计泛化

过去十年来，深度学习理论研究蓬勃发展，试图回答“为什么深度学习泛化？”一场强大的视角转变促使了这一进展：在插值领域研究过度参数化模型。在本文中，我们认为应该进行另一个视角转变，因为LLMs的一些理想特性并不是由良好的统计泛化所导致的，需要单独的理论解释。我们的核心论点基于以下观察：AR概率模型本质上是不可辨认的，零或接近零的KL散度模型具有零或近零的等价测试损失，但可能表现出截然不同的行为。我们通过数学示例和实证观察支持我们的观点，阐明了非辨识性通过三个案例研究具有实际意义：（1）零翻译规则外推的非辨识性；（2）上下文学习的近似非辨识性；以及（3）微调的非辨识性。我们回顾了一些有前途的研究方向，重点关注LLM相关的泛化度量、可传递性和归纳偏好。

http://arxiv.org/abs/2405.01964v1

大语言模型中GLU变体的依赖感知半结构化稀疏性

摘要：大型语言模型（LLM）的快速发展显著增强了语言理解和生成的能力。然而，庞大的模型规模对硬件提出了挑战，影响了用于服务的内存大小和用于token生成的推理延迟。为解决这些挑战，我们提出了一种新方法——依赖感知的半结构稀疏（DaSS），用于最近流行的基于SwiGLU的LLM剪枝。我们的方法将结构依赖性纳入基于权重大小的非结构化剪枝中。我们引入了一个MLP特定的剪枝度量，通过同时考虑权重的大小和对应的MLP中间激活范数来评估每个权重的重要性。DaSS能够平衡非结构剪枝提供的适应性和依赖性结构剪枝固有的结构一致性。对Mistral和LLaMA2模型系列的实证评估表明，DaSS不仅在实现硬件友好的N：M稀疏模式方面胜过SparseGPT和Wanda，而且保持了Wanda的计算效率。

http://arxiv.org/abs/2405.01943v1

信号

JAT：不偏科的RL智能体“六边形战士”

我们熟知的智能体往往有点「偏科」，寻找同时擅长多个领域并无缝切换的通用模型，仍是机器学习研究中的一个关键目标，需融会贯通不同领域任务中的不同模态、任务复杂性和数据类型。

此前研究者对于CV和NLP任务进行了广泛探索，但将RL任务结合进来的很少，因为RL任务本质上是异质的。

本工作提出Jack of All Trades (JAT)，一个基于 Transformer 的多模态通用强化学习智能体框架，能够通过同一套参数应对不同复杂度的多种任务，化身既会打游戏，又能控制机器人的全能高手。论文同时发布了首个用于通用智能体训练的数据集 JAT 数据集，包含了由专家智能体收集的数十万条轨迹。

https://huggingface.co/jat-project/jat

Long Context ICL 的表现超过 fine-tuning

如果 long context 支持得好，起码在ICL 分类上能用很少的例子超过更多例子来 finetune 模型的表现。DSPy 类优化 ICL 的框架在未来会越来越得到重视。

语言模型过拟合评测

Scale AI标了一个新的benchmark，测评了一系列大模型的过拟合程度，Phi-3和Mistral有明显数据污染迹象

https://mp.weixin.qq.com/s/YRYaCSsaegjBtwevpwlLHQ

HuggingFace&Github

efficient-kan

这个存储库提供了一个高效的Kolmogorov-Arnold Network (KAN)实现，通过对原始实现的优化，解决了其性能问题。主要包括:

1)将激活函数重新表述为基函数的线性组合，减少内存开销并简化计算;

2)使用权重的L1正则化替代原有的输入L1正则化，以保持可解释性的同时提高效率;

3)提供可选的缩放因子，平衡效率和性能。

https://github.com/Blealtan/efficient-kan

Unitxt

Unitxt 是一个创新的文本数据准备和评估库，针对生成式语言模型进行了专门设计。它通过将处理流程分解为可定制的模块化组件，解决了传统文本处理管道在灵活性和可重复性方面的局限性。Unitxt 原生集成了常用的机器学习库，并建立了一个协作平台，使开发者能够共享、探索和推进文本数据处理的最佳实践，从而大大提高生成式 NLP 研究的效率和影响力。