大模型日报（4月18日学术篇）

欢迎观看大模型日报，进入大模型日报群和空间站（活动录屏复盘聚集地）请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

学习

DSPy 入门：再见提示，你好编程

文章介绍了DSPy框架，一个基于Python的声明式自我改进语言程序设计框架，旨在通过编程而非简单的提示来构建基于语言模型的应用。DSPy消除了因组件变更而重新进行繁琐的提示工程的需求。它通过自动优化语言模型的调用，使得应用更加健壮。DSPy引入了“签名”概念来抽象化提示和微调，通过模块化设计来替代传统的提示技术，并通过编译器和提词器实现流水线的自动优化。此框架允许用户集中精力于定义程序逻辑和验证，而非频繁调整提示。

https://zhuanlan.zhihu.com/p/685171231?utm_psn=1764326921197146112

Infini-mini-transformer: 对谷歌最新提出的Infini-transformer模型进行代码复现（含小规模的预训练过程）

文章介绍了对谷歌提出的Infini-transformer模型的复现和训练细节。该模型采用分片方法处理输入，利用记忆力机制在各个切片之间传递信息，模拟人类记忆过程。作者对模型的主要组成部分进行了技术解读，包括记忆检索输出、记忆更新，并通过门机制在当前切片的输出中融合注意力和记忆输出。此外，文中也提到了训练中的挑战，如训练速度慢、显存利用率低等问题，并考虑未来使用flash_attention优化训练过程。

https://zhuanlan.zhihu.com/p/692848185

一文看懂Score-based模型的基本原理（一）

文章详细介绍了Score-based模型的核心概念和技术细节，突出其在生成模型领域的应用。模型的目的是拟合数据分布并从中采样生成新的图像。通过定义概率密度函数和最大化数据的对数似然，文章讨论了如何优化模型参数。特别强调了Score function的作用，以及如何通过Score-matching和Langevin Dynamics Sampling来预测和生成数据点。此外，还探讨了噪声条件下的Score预测和退化分布的问题，提出了使用多强度噪音进行模型训练的策略，以提高模型的预测精度和适应性。

https://zhuanlan.zhihu.com/p/692665153?utm_psn=1763843449424576512

不受窗口长度限制的长文本生成全新思路：利用模型参数储存上文信息

研究提出一种全新方法以支持无限长文本生成，主要通过将上文信息储存在模型参数中，而非传统的KV cache。此方法使用一个临时的Lora模块（Temp-Lora）来存储历史信息，该模块在推理过程中不断通过模型生成的token进行训练，并在推理结束后被丢弃，避免对模型参数造成永久性影响。此框架显著降低了计算开销，无论上下文长度如何，生成一个token所需的浮点运算数和推理延时保持不变。此方法在小说补全和翻译任务中均显示出显著效果，大幅度提升了模型的性能。

https://zhuanlan.zhihu.com/p/679713147?utm_psn=1763631537822765056

基于unsloth框架完成7B规模模型SFT微调训练(10GB显存占用)

本文探讨了使用unsloth框架在单机单卡环境下完成7B规模模型的SFT微调训练。利用unsloth框架和Triton库优化，实现了在RTX A6000 48GB显卡上的高效训练，峰值显存仅为10.342 GB。文章详细描述了模型的设置，包括最大token长度8192、使用4bit量化减少显存占用等技术细节。此外，还介绍了如何通过设置dtype和其他参数来适应不同的硬件架构。整个微调过程展示了在保持性能的同时，如何有效控制资源使用。

https://zhuanlan.zhihu.com/p/689918127?utm_psn=1763630933532807168

深度生成模型课程

这是一个关于深度生成模型的开放课程网站，内容涵盖了生成模型的概率基础、学习算法以及流行的模型系列，如变分自编码器（VAEs）、生成对抗网络（GANs）、自回归模型、规范化流和扩散模型等。课程还介绍了这些模型在计算机视觉、自然语言处理和生物医药等领域的应用，并探讨了它们与强化学习领域的联系。

https://kuleshov-group.github.io/dgm-website/

接受LLM非确定性

本文探讨了大型语言模型（LLM）中的非确定性问题，并试图从技术角度解释其原因。非确定性的主要来源之一是采样过程的随机性，尽管通过种子（seeding）可以实现“相同输入，相同输出”。然而，作者在使用具有混合专家（MoE）架构的GPT-4时发现，即使进行了种子设置，结果仍然显示出非确定性。这是因为在批处理推断中，输入序列的路由依赖于其在批次中的位置及其他序列，因此只有在相似的批次中才能体现出确定性。此外，硬件层面的非确定性也是一个问题，如GPU在执行浮点运算时因性能优化而无法保证运算的顺序一致性。最后，作者指出语言本身的高度歧义性和复杂性也为LLM的输出增加了随机性。尽管如此，适当的模型和参数调整可以在一定程度上减少这种非确定性。

https://barryzhang.substack.com/p/making-peace-with-llm-non-determinism

HuggingFace&Github

Dllama

Dllama 是一个简单易用的库，用于直接从 Delphi 进行LLM推理。它可以将格式化的 GGUF 加载LLMs到 CPU 或 GPU 内存中，使用CUDA后端进行加速。

https://github.com/tinyBigGAMES/Dllama

CSGHub

CSGHub是一个开源、可信的大模型资产管理平台，可帮助用户治理LLM和LLM应用生命周期中涉及到的资产（数据集、模型文件、代码等）。CSGHub提供类似私有化的Huggingface功能，以类似OpenStack Glance管理虚拟机镜像、Harbor管理容器镜像以及Sonatype Nexus管理制品的方式，实现对LLM资产的管理。

https://github.com/OpenCSGs/CSGHub