我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
彭博:介绍 RWKV-6 的模型设计,代码带注释
本文详细介绍了 RWKV-6 模型的技术细节和代码实现。RWKV-6 包含 GPT 模式和 RNN 模式,其中 GPT 模式适用于训练和预填充,而 RNN 模式则适用于序列生成。模型架构包括嵌入层、多个处理块、LayerNorm 和输出层。每个块内部实现了特殊的线性注意力机制和前馈网络,利用时间混合参数和 LoRA 技术进行权重更新,增强模型的时序处理能力。此外,RWKV-6 采用动态和静态混合因子进行效率优化,并对模型参数进行特定的初始化以提升训练速度和效果。
RWKV 模型保姆级微调教程
本文是一份针对RWKV模型的详尽微调指南,旨在帮助初学者快速上手。首先,用户需配置Linux环境并安装支持CUDA的nVidia显卡。环境准备包括创建conda虚拟环境,安装Python 3.10、torch 2.1.2+cu121、cuda 12.3+及最新的deepspeed等软件包。配置完毕后,通过Git克隆RWKV-LM仓库,选择适当的RWKV基底模型进行下载,然后整理训练数据集,将其转换成特定格式。最后,用户需调整训练参数,运行训练脚本,完成模型的微调。本教程强调了在配置和训练过程中的技术细节,确保用户能有效地微调RWKV模型。
RWKV-LM: 一种可并行化的RNN,具备变压器级别的性能
RWKV-LM 是一个结合了循环神经网络(RNN)和变压器(Transformer)优点的模型,提供出色的性能、快速的推理速度、节省显存、快速训练、无限上下文长度和免费的句子嵌入功能。RWKV-LM 支持像GPT那样的直接并行化训练,无需关注模型的每个位置,可以利用隐藏状态直接从一个状态计算到下一个状态。这一设计不仅提升了模型的训练效率,还在保持低资源消耗的同时,允许模型处理极大的上下文长度,这在传统的RNN中是难以实现的。
h ttps://github.com/BlinkDL/RWKV-LM?tab=readme-ov-file
生数科技在中关村论坛发布视频生成模型Vidu对标Sora
https://mp.weixin.qq.com/s/ltdPmQ0nE_UfE8Uf4g7ROQ
Representation Engineering
苹果发布 CoreNet
CoreNet 是一个由 Apple 公司开发和维护的开源深度神经网络工具包,为研究人员和工程师提供了一个统一的平台,可以方便地训练各种标准和新型的小型到大型模型,覆盖从基础模型到计算机视觉、自然语言处理等广泛的应用领域。它提供了详细的安装指南和目录结构,方便用户快速上手使用,同时还公开发布了 Apple 内部使用 CoreNet 进行的一系列研究成果,为相关领域的工作提供了参考和启发。
https://github.com/apple/corenet
Open-Sora
Open-Sora 最新发布了 1.1 版本,大幅提升了视频生成的功能和性能。该版本支持生成时长从 2 秒到 15 秒的视频,分辨率是从 144p 到 720p 的任意尺寸,以及文本到图像、文本到视频、图像到视频、视频到视频等多种转换类型,并且可以生成任意宽高比的视频。此外,Open-Sora 1.1 还发布了完整的视频处理流水线,大大简化了视频创作的复杂性。
https://github.com/hpcaitech/Open-Sora
mistral.rs
mistral.rs 是一个高性能、功能丰富的 LLM 推理平台,通过支持多种量化精度、加速器支持以及先进的推理技术,如 LoRA 和推测解码,可以实现非常快的 LLM 推理速度。
https://github.com/EricLBuehler/mistral.rs
大模型日报 16
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/15735.html