大模型日报（4月8日学术篇）

欢迎观看大模型日报，如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

论文

中文迷你 LLM：预训练一个以中文为中心的大语言模型

在这项研究中，我们介绍了CT-LLM，一个2B大型语言模型（LLM），展示了在开发LLM时向中文语言优先的重要转变。独特地从零开始，CT-LLM与传统方法有所不同，主要融合了中文文本数据，利用了一个包括12,000亿个token的庞大语料库，其中包括了80亿个中文token、30亿个英文token和10亿个代码token。这种战略性构成加强了模型在理解和处理中文方面的卓越能力，并通过对齐技术进一步增强。在CHC-Bench上表现出色，CT-LLM在中文任务中表现出色，并通过SFT展示了其在英文方面的熟练技能。这项研究挑战了主要在英语语料库上训练LLM，然后将它们适应其他语言的盛行范式，拓宽了LLM训练方法的视野。通过公开完整的训练中文LLM过程，包括详细的数据处理流程，获得的大规模预训练中文语料库（MAP-CC），一个精心选择的跨学科中文难题基准（CHC-Bench）和2B规模的中文微型LLM（CT-LLM），我们旨在促进学术界和工业界进一步探索和创新，为更具包容性和多功能性的语言模型铺平道路。

http://arxiv.org/abs/2404.04167v1

搜索流 (SoS)：学习在语言中搜索

语言模型在训练过程中很少展示出有效的错误。它们很难超越下一个token，并且遭受错误的越滚越大，难以预测数步以后的后果。本文展示了如何通过在语言中表示搜索过程，将语言模型教授如何搜索，即作为一个扁平化的字符串-搜索流。我们提出了一个统一的搜索语言，涵盖了各种不同的符号搜索策略。我们使用了简单但困难的Countdown游戏来演示我们的方法，目标是将输入数字与算术运算结合以达到目标数字。我们从头开始在一个由启发式求解器生成的搜索流数据集上对基于Transformer的语言模型进行了预训练。结果表明，SoS预训练将搜索准确性提高了25%，优于仅训练以预测最优搜索轨迹的模型。我们进一步使用两种政策改进方法对此模型进行微调：优势诱导策略对齐（APA）和自学习推理器（STaR）。微调后的SoS模型解决了36%以前无法解决的问题，包括任何启发式求解器都无法解决的问题。我们的结果表明，语言模型可以通过搜索学会解决问题，自我改进以灵活使用不同的搜索策略，并潜在地发现新策略。

http://arxiv.org/abs/2404.03683v1

没有指数数据级别，就没有“zero-shot”：预训练概念频率决定了多模态模型的性能

网络爬虫的预训练数据集支撑着多模态模型（如用于分类/检索的CLIP和用于图像生成的稳定扩散）令人印象深刻的“zero-shot”评估性能。然而，对于这些多模态模型而言，“zero-shot”泛化的概念到底有多有意义尚不明确，因为尚不清楚它们的预训练数据集在“zero-shot”评估期间所针对的下游概念的范围有多大。在这项研究中，我们问道：多模态模型在下游概念上的表现如何受其预训练数据集中这些概念的频率影响？我们全面调查了34个模型和五个标准的预训练数据集（CC-3M，CC-12M，YFCC-15M，LAION-400M，LAION-Aesthetics），生成了超过300GB的数据。我们一致发现，多模态模型远非表现出“zero-shot”泛化，需要指数级增加数据才能在线性改进下游“zero-shot”性能，遵循一种样本低效的对数线性缩放趋势。这种趋势甚至在控制预训练和下游数据集之间的样本级相似性，并在纯合成数据分布上进行测试时仍然存在。此外，在基于我们的分析对长尾数据进行采样进行基准测试后，我们发现，整体而言，多模态模型表现不佳。我们将这种长尾测试集贡献给进一步研究这个方向的“Let it Wag!”基准测试。总之，我们的研究揭示了训练数据的指数级需求，这意味着在大规模训练范式下实现“零-shot”泛化能力的关键仍有待发现。

http://arxiv.org/abs/2404.04125v1

从设计上可验证化：对齐语言模型使其引用预训练数据

人类要信任大型语言模型（LLMs）流利的生成内容，他们必须能够通过可信的外部来源验证其正确性。最近的努力旨在通过引用检索文档或事后来源来增加可验证性。然而，这种引用很容易出现错误，进一步复杂了可验证性。为了解决这些限制，我们采用了一种不同的哲学来实现可验证性目标：我们通过开发模型从预训练数据中引用可信源的言辞来简化验证过程。我们提出了Quote-Tuning，它展示了将LLMs与预训练数据中记忆的信息对齐并引用的可行性。Quote-Tuning使用高效的成员推断工具来量化对大型语料库的引用，并使用引用数量作为隐式奖励信号构建引用的合成偏好数据集，而无需任何人工注释。接下来，目标模型通过偏好优化算法对齐引用。实验结果显示，相对于未调整的模型，Quote-Tuning将LLM生成的引文从高质量预训练文档中引述的比例提高了55%至130%，同时保持响应质量。进一步的实验表明，Quote-Tuning将引用泛化到领域外数据，适用于不同任务，并为真实性提供额外的好处。Quote-Tuning不仅作为一种无忧的增加引文的方法，还为通过更好的可验证性提高LLM的可信度打开了新途径。

http://arxiv.org/abs/2404.03862v1

FFN-SkipLLM：自回归解码中的隐藏宝石与自适应前馈跳跃

自回归的大语言模型（如LLaMa，GPTs）无处不在，在语言理解和生成方面取得了显著成功。然而，这种令人印象深刻的能力通常伴随着庞大的模型大小，对自回归逐标记生成提出了重大挑战。为了减轻生成过程中的计算负担，提出了一些早期退出和层丢弃策略。尽管在Rough-L/BLUE等指标上LLM层之间的冗余带来了一些令人满意的成功，但我们精心的知识密集型评估揭示了诸如生成坍塌、错误事实的幻觉以及即使在仅有10-15%层比率的轻微退出处性能明显下降等问题。我们主要将这些错误归因于在早期退出过程中通过状态复制无效处理KV缓存。在这项工作中，我们观察到了LLM层中计算昂贵的前馈块的饱和，并提出了FFN-SkipLLM，这是一种自回归LLM的新颖细粒度跳过策略。更具体地说，FFN-SkipLLM是一种输入自适应的前馈跳过策略，可以跳过25-30%的LLMs的FFN块，在知识密集型生成任务上性能略有改变，而无需处理KV缓存。我们在MT-Bench，Factoid-QA和可变长度文本摘要等基准上的大量实验证明了我们简单易用的方法如何促进更快的自回归解码。

http://arxiv.org/abs/2404.03865v1

HuggingFace&Github

Octopus-v2

Octopus-V2-2B 是一款拥有 20 亿参数的开源语言模型，代表了 Nexa AI 在函数调用中应用大型语言模型的研究突破，专为 Android API 量身定制。与检索增强生成（RAG）方法不同，RAG 方法需要对潜在的函数参数进行详细描述，有时需要多达数万个输入 token，而 Octopus-V2-2B 在其训练和推理阶段都引入了独特的函数 token 策略。这种方法不仅使其能够达到与 GPT-4 相当的性能水平，而且还显着提高了其推理速度，超过了基于 RAG 的方法，使其对边缘计算设备特别有利。

https://huggingface.co/NexaAIDev/Octopus-v2

Instantstyle

InstantStyle 旨在通过将样式和内容与特征空间内的参考图像分离，并将参考图像特征专门注入到特定样式的块中，解决图像风格生成中的挑战，展示出卓越的视觉风格化效果，并在风格的强度和文本元素的可控性之间取得最佳平衡。

https://instantstyle.github.io

XVERSE-MoE-A4.2B

XVERSE-MoE-A4.2B 是由深圳元象科技自主研发的支持多语言的大语言模型（Large Language Model），使用混合专家模型（MoE，Mixture-of-experts）架构，模型的总参数规模为 258 亿，实际激活的参数量为 42 亿，本次开源的模型为底座模型 XVERSE-MoE-A4.2B。

https://huggingface.co/xverse/XVERSE-MoE-A4.2B