大模型日报(4月20~21日 学术篇)

欢迎观看大模型日报站(活动录屏复盘聚集地)

大模型日报(4月20~21日 学术篇)

学习

01

如何看待 Meta 发布 Llama3,并将推出 400B+ 版本?

LLaMa3的技术细节中,最显著的是模型不采用MoE架构而维持Dense架构,即使在其400B+的版本中。此外,LLaMa3没有推出多模态版本,目前只提供纯文本模型。8B的小型模型在15T token的数据训练下依然有效,显示出比预期的Chinchilla Scaling Laws更好的性能。LLaMa3的数据处理策略中,使用LLaMa2作为数据质量分类器,以优化数据清洗,确保高质量的训练数据。这种方法对模型的整体表现和推理效率有显著影响。
https://www.zhihu.com/question/653373334/answer/3471466524
02

Llama3 微调项目实践与教程(XTuner 版)

文章详细描述了XTuner团队如何高效地微调Llama 3模型。XTuner团队首先对模型进行了性能测试,使用2个A100 80G GPU全量微调8K上下文的Llama 3 8B模型,并展示了不同GPU配置下的训练效率。此外,团队也提供了详尽的步骤指南,从环境配置、模型下载到实际训练和部署,包括使用conda环境和必要的库安装,以及如何利用XTuner工具进行模型微调。
在实操中,XTuner团队利用自己开发的脚本来生成个性化训练数据,并通过修改配置文件来适配Llama 3模型的微调需求。通过这种方式,他们成功实现了模型的个性化自我认知训练,最终在Web Demo中展示了模型的交互效果。整个过程中,XTuner团队展现了在复杂的AI模型部署和微调中的专业能力和实操经验。
大模型日报(4月20~21日 学术篇)https://mp.weixin.qq.com/s/sKet1R4k_Xwmfo6D_x17Rw
03

Llama 3开源!魔搭社区 推理,部署,微调和评估 教程

文章详细介绍了Meta Llama 3模型的环境配置与安装过程。要求Python 3.10或以上、PyTorch 1.12及以上(推荐2.0以上版本),及CUDA 11.4以上。安装步骤包括从ModelScope社区下载模型,并使用Python库进行配置。提供了示例代码,用于加载模型并执行基本的聊天应答推理,确保用户能快速开始体验Llama 3模型的功能。
大模型日报(4月20~21日 学术篇)https://mp.weixin.qq.com/s/hiRtM4jrGyFF_utCE1-LCA
04
4

搞懂 CUDA Shared Memory 上的 bank conflicts 和向量化指令(LDS.128 / float4)的访存特点

文章深入探讨了CUDA中shared memory的bank conflicts和向量化指令的访存特性。在优化如GEMM这类算子时,利用shared memory的广播机制并避免bank conflicts至关重要。文章解释了如何使用LDS.64或LDS.128指令来优化内存访问,通过一次性访问8或16个bytes来提高效率。详细讨论了不同的访存指令如float2、float4在shared memory中如何影响bank conflicts的产生,以及如何通过组织线程和数据访问模式来最小化这些冲突,优化内存访问性能。文章通过实例和测试总结出使用这些指令时的访存特点,帮助开发者更好地理解和应用这些高级特性。
大模型日报(4月20~21日 学术篇)https://zhuanlan.zhihu.com/p/690052715
05

Diffusion模型推理过程中的Cache

文章探讨了Diffusion模型在推理过程中使用缓存(Cache)技术来提高效率。主要内容涉及两种优化方法:减少迭代次数和系统级加速,特别是通过缓存相似信息来实现。文章特别介绍了Adobe的Nirvana系统,这是一个大规模分布式并行推理服务系统,它通过合并重复计算部分来优化性能。此外,Nirvana系统还利用CLIP embedding的特点,通过检索和重用缓存中的中间噪声状态,来减少必要的去噪步骤,从而减少GPU计算需求、端到端延迟,并节约成本。文章还提到了一个重要的数据库工具,DiffusionDB,用于存储和检索图像生成模型的提示词。
大模型日报(4月20~21日 学术篇)https://zhuanlan.zhihu.com/p/689685429?utm_psn=1764794438206042112
06

视觉变换器的视觉指南

这篇文章通过视觉和简单的解释,详细介绍了视觉变换器(Vision Transformers,ViTs)的关键组成部分。ViTs是一类在图像分类任务上取得最先进性能的深度学习模型,将最初为自然语言处理设计的变换器架构应用于图像数据。文中步骤包括:将图像划分为等大小的块、将图像块展平成向量、创建补丁嵌入、添加分类标记和位置嵌入向量,并详细说明了这些向量是如何通过多头注意力机制处理,最终预测分类概率的。此外,还讨论了模型的训练过程,使用交叉熵损失函数通过反向传播和梯度下降进行训练。
https://blog.mdturp.ch/posts/2024-04-05-visual_guide_to_vision_transformer.html

HuggingFace&Github

01

Firecrawl

Firecrawl 是一个 API 服务,它可以接收一个 URL,然后对其进行爬取,并将其转换为干净的 markdown 格式。它会爬取所有可访问的子页面,并为每个页面提供干净的 markdown 格式。不需要网站地图。用户可以使用其托管版本的易用API,也可以选择自行托管后端。如果想要使用该API,需要在Firecrawl上注册并获取一个API密钥。可以使用API密钥来提交爬取作业,并检查爬取作业的状态和结果。
大模型日报(4月20~21日 学术篇)https://github.com/mendableai/firecrawl
02

Flyte

Flyte是一个开源编排器,有助于构建生产级数据和 ML 管道。它专为可扩展性和可重复性而构建,利用 Kubernetes 作为其底层平台。借助Flyte,用户团队可以使用Python SDK构建管道,并将其无缝部署在云和本地环境中,从而实现分布式处理和高效的资源利用。Flyte还支持使用Python或其他语言编写代码,并利用强大的类型引擎。用户可以在本地或远程集群上轻松执行其模型。

大模型日报(4月20~21日 学术篇)https://github.com/flyteorg/flyte

03

rtp-llm

rtp-llm 是阿里巴巴大模型预测团队开发的 LLM 推理加速引擎。rtp-llm 在阿里巴巴内部被广泛使用,支持了包括淘宝、天猫、闲鱼、菜鸟、高德、饿了么、AE、Lazada 等多个部门的大模型推理业务。
https://github.com/alibaba/rtp-llm

大模型日报(4月20~21日 学术篇)

大模型日报16

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/15925.html

Like (0)
Previous 2024-04-19 23:53
Next 2024-04-21 23:55

相关推荐