大模型日报（4月20~21日学术篇）

欢迎观看大模型日报，进入大模型日报群和空间站（活动录屏复盘聚集地）请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

学习

如何看待 Meta 发布 Llama3，并将推出 400B+ 版本？

LLaMa3的技术细节中，最显著的是模型不采用MoE架构而维持Dense架构，即使在其400B+的版本中。此外，LLaMa3没有推出多模态版本，目前只提供纯文本模型。8B的小型模型在15T token的数据训练下依然有效，显示出比预期的Chinchilla Scaling Laws更好的性能。LLaMa3的数据处理策略中，使用LLaMa2作为数据质量分类器，以优化数据清洗，确保高质量的训练数据。这种方法对模型的整体表现和推理效率有显著影响。

https://www.zhihu.com/question/653373334/answer/3471466524

Llama3 微调项目实践与教程（XTuner 版）

文章详细描述了XTuner团队如何高效地微调Llama 3模型。XTuner团队首先对模型进行了性能测试，使用2个A100 80G GPU全量微调8K上下文的Llama 3 8B模型，并展示了不同GPU配置下的训练效率。此外，团队也提供了详尽的步骤指南，从环境配置、模型下载到实际训练和部署，包括使用conda环境和必要的库安装，以及如何利用XTuner工具进行模型微调。

在实操中，XTuner团队利用自己开发的脚本来生成个性化训练数据，并通过修改配置文件来适配Llama 3模型的微调需求。通过这种方式，他们成功实现了模型的个性化自我认知训练，最终在Web Demo中展示了模型的交互效果。整个过程中，XTuner团队展现了在复杂的AI模型部署和微调中的专业能力和实操经验。

https://mp.weixin.qq.com/s/sKet1R4k_Xwmfo6D_x17Rw

Llama 3开源！魔搭社区推理，部署，微调和评估教程

文章详细介绍了Meta Llama 3模型的环境配置与安装过程。要求Python 3.10或以上、PyTorch 1.12及以上（推荐2.0以上版本），及CUDA 11.4以上。安装步骤包括从ModelScope社区下载模型，并使用Python库进行配置。提供了示例代码，用于加载模型并执行基本的聊天应答推理，确保用户能快速开始体验Llama 3模型的功能。

https://mp.weixin.qq.com/s/hiRtM4jrGyFF_utCE1-LCA

搞懂 CUDA Shared Memory 上的 bank conflicts 和向量化指令（LDS.128 / float4）的访存特点

文章深入探讨了CUDA中shared memory的bank conflicts和向量化指令的访存特性。在优化如GEMM这类算子时，利用shared memory的广播机制并避免bank conflicts至关重要。文章解释了如何使用LDS.64或LDS.128指令来优化内存访问，通过一次性访问8或16个bytes来提高效率。详细讨论了不同的访存指令如float2、float4在shared memory中如何影响bank conflicts的产生，以及如何通过组织线程和数据访问模式来最小化这些冲突，优化内存访问性能。文章通过实例和测试总结出使用这些指令时的访存特点，帮助开发者更好地理解和应用这些高级特性。

https://zhuanlan.zhihu.com/p/690052715

Diffusion模型推理过程中的Cache

文章探讨了Diffusion模型在推理过程中使用缓存（Cache）技术来提高效率。主要内容涉及两种优化方法：减少迭代次数和系统级加速，特别是通过缓存相似信息来实现。文章特别介绍了Adobe的Nirvana系统，这是一个大规模分布式并行推理服务系统，它通过合并重复计算部分来优化性能。此外，Nirvana系统还利用CLIP embedding的特点，通过检索和重用缓存中的中间噪声状态，来减少必要的去噪步骤，从而减少GPU计算需求、端到端延迟，并节约成本。文章还提到了一个重要的数据库工具，DiffusionDB，用于存储和检索图像生成模型的提示词。

https://zhuanlan.zhihu.com/p/689685429?utm_psn=1764794438206042112

视觉变换器的视觉指南

这篇文章通过视觉和简单的解释，详细介绍了视觉变换器（Vision Transformers，ViTs）的关键组成部分。ViTs是一类在图像分类任务上取得最先进性能的深度学习模型，将最初为自然语言处理设计的变换器架构应用于图像数据。文中步骤包括：将图像划分为等大小的块、将图像块展平成向量、创建补丁嵌入、添加分类标记和位置嵌入向量，并详细说明了这些向量是如何通过多头注意力机制处理，最终预测分类概率的。此外，还讨论了模型的训练过程，使用交叉熵损失函数通过反向传播和梯度下降进行训练。

https://blog.mdturp.ch/posts/2024-04-05-visual_guide_to_vision_transformer.html

HuggingFace&Github

Firecrawl

Firecrawl 是一个 API 服务，它可以接收一个 URL，然后对其进行爬取，并将其转换为干净的 markdown 格式。它会爬取所有可访问的子页面，并为每个页面提供干净的 markdown 格式。不需要网站地图。用户可以使用其托管版本的易用API，也可以选择自行托管后端。如果想要使用该API，需要在Firecrawl上注册并获取一个API密钥。可以使用API密钥来提交爬取作业，并检查爬取作业的状态和结果。

https://github.com/mendableai/firecrawl

Flyte

Flyte是一个开源编排器，有助于构建生产级数据和 ML 管道。它专为可扩展性和可重复性而构建，利用 Kubernetes 作为其底层平台。借助Flyte，用户团队可以使用Python SDK构建管道，并将其无缝部署在云和本地环境中，从而实现分布式处理和高效的资源利用。Flyte还支持使用Python或其他语言编写代码，并利用强大的类型引擎。用户可以在本地或远程集群上轻松执行其模型。

https://github.com/flyteorg/flyte