大模型日报（8月24~25日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

长上下文嵌入模型中的后期分块

“Late Chunking” 技术是针对长文本上下文嵌入模型的性能优化方法。该方法通过在模型处理过程中的后期阶段进行文本分割，将长文本划分为小片段，以此降低内存和计算资源的消耗。在实验中，该技术展现了在不牺牲模型准确性的情况下，显著提升处理长文本的效率。特别是在基于 Transformer 架构的模型中，”Late Chunking” 通过减少序列长度带来的计算复杂度，有效地优化了模型的运行时间和内存占用。

https://jina.ai/news/late-chunking-in-long-context-embedding-models/?nocache=1

我们如何构建 Townie——一款生成全栈应用的应用程序

Townie 是一个利用大型语言模型（LLM）如 Claude 3.5 Sonnet 构建的应用程序，能够通过对话生成全栈应用。它的核心在于将 LLM 的代码生成能力与 Val Town 平台的即时部署特性相结合，使得用户无需深入编程知识也能创建和部署应用程序。技术细节包括使用 Vercel 的 AI SDK 进行模型切换、通过 LLM 生成 Typescript 代码、解决数据库持久性问题（如使用 Blob Storage 替代 SQLite）、以及实现前后端代码分离。此外，Posma 还通过 “Make Real” 功能展示了如何将绘图转换为具有后端的 HTML，并通过 E-VALL-UATOR 工具评估 LLM 生成代码的质量。为了降低成本和提高效率，他采取了减少上下文窗口大小、生成代码差异（diffs）而非完整代码块等措施。

https://blog.val.town/blog/codegen/

长上下文 RAG 表现的LLM性能

本文深入探讨了长上下文对于基于大型语言模型（LLMs）的检索增强生成（RAG）应用性能的影响。实验结果显示，长上下文可以提供更多相关文档，有助于提升 RAG 系统的答案质量。然而，性能并非随着上下文长度的增加而线性提升，许多模型在超过特定长度后表现出下降趋势。例如，Llama-3.1-405b 模型在超过 32k tokens 后性能下降，而 GPT-4-0125-preview 模型在 64k tokens 后出现相同情况。不同模型在长上下文下的失败模式各异，包括生成重复内容、随机内容、无法遵循指令或提供错误答案等。特别是，Claude-3-sonnet 模型在长上下文下倾向于拒绝回答，理由包括版权关切。通过对 13 款流行的开源和商业 LLMs 进行超过 2000 次实验，文章揭示了长上下文 RAG 性能的复杂性，并强调了在实际应用中需要考虑模型选择和上下文长度的重要性。

https://www.databricks.com/blog/long-context-rag-performance-llms

EP8对话淦创、周衔：RoboGen如何通过生成模型和可微分模拟大规模合成机器人示教数据

RoboGen 是一种利用生成模型和可微分模拟技术的系统，旨在大规模合成机器人示教数据。它通过任务提议、场景生成和训练监督生成来产生高质量的数据集，支持机器人技能学习。核心技术包括：可微分物理引擎，它允许在模拟环境中进行梯度计算，从而实现更精确的环境反馈和动作优化。这种方法有助于缩小模拟与现实环境之间的差异（Sim2Real Gap），并提供丰富的数据以提升机器人在复杂任务中的泛化能力。

https://mp.weixin.qq.com/s/MaJA3vaf1MH6fyLGFpdcGQ

JuiceFS 在多云架构中加速大模型推理

文章首先阐述了大模型推理服务的典型架构特点，如跨多个云服务或数据中心，以及数据一致性和管理便捷性的重要性。在推理环节，JuiceFS 企业版通过分布式缓存提高了模型数据的读取速度，特别是在高并发场景下。例如，单机单卡加载 Stable Diffusion 模型时，从缓存集群读取数据的延迟可低至 0.5ms，性能提升了将近 40 倍。

在多云、混合云架构中，JuiceFS 的镜像文件系统功能允许数据从一个地区复制到多个地区，实现数据的快速分发。数据读取时，如果镜像区域的数据未到达，系统会自动回退到源区域存储。

对于海量存量数据的读取，JuiceFS 企业版的「导入对象存储元数据」功能使得企业可以高效地完成数据导入，并通过分布式缓存优化数据访问速度。

在异构环境中，JuiceFS 通过「缓存节点权重」的概念，允许用户根据实际环境调整每个 GPU 节点的权重，以优化存储和计算性能。

https://mp.weixin.qq.com/s/j6AlSqKxKInAKeBfADJdOA

Stream-K 和 Lean-Attention

Stream-K 和 Lean-Attention 是两种旨在提高 Transformer 模型效率的注意力机制。Stream-K 机制通过流式处理序列数据，能够有效处理长序列，减少内存占用，实现快速响应。Lean-Attention 则通过精简不必要的计算，降低了模型的复杂度，提升了计算效率。两种机制都在不牺牲性能的前提下，显著提高了模型处理速度和内存使用效率，具有广泛的应用前景，尤其在处理大规模数据和资源受限的环境中。

https://zhuanlan.zhihu.com/p/716352563?utm_psn=1811049576632832001

大模型的基本功

这篇文章探讨了在大模型开发中一些常见但基础的技能，这些技能虽然可能不直接提升模型性能，但能显著提高开发效率。作者首先提出了一些大模型的核心技术，如Transformer、Flash Attention、Megatron等，但强调这些技术对大多数实际工作并非必要理解，而更实用的技能是如何处理和转换不同模型框架。

基本技能：

模型转换脚本（trans_XX_to_llama.py）：在开源社区中，LLama的网络结构占据主导地位。作者建议编写脚本，以便使用modeling_llama.py加载其他开源模型，如Qwen、Baichuan等。这不仅能帮助理解不同模型的特性，还能通过对比论文找到模型设计上的独特之处。
自定义模型文件（modeling_XX.py）：建议创建属于自己的modeling_XX.py文件，将各家实现的优点整合到一起。这样在遇到新的开源模型时，可以通过简单的转换脚本实现快速微调，而无需修改训练代码。作者还建议添加一些调试函数，如计算隐藏层的余弦距离、预测下一token的最大可能性等，以帮助日常开发。
多模型推理（multi_infer.py）：传统的model.generate()方法在多卡并行时效率较低，作者建议编写一个推理类，通过多进程或其他方式实现更快的推理速度。还可以通过定制modeling_XX.py文件中的设备管理函数，提升代码的优雅性和灵活性。
通道损失（Channel Loss）：在进行领域模型的后预训练（post-pretrain）时，传统的损失曲线提供的信息有限。作者建议对数据源进行分类，并在训练过程中绘制每个通道的损失曲线，以便更好地分析和解决问题。