LLM SPACE祝大家开工大吉,龙年好运常在,平安健康顺遂,工作事业顺心如意!
大模型周报由奇绩创坛大模型日报精选编辑而成,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享奇绩活动,欢迎大家一起交流!👇🏻

01 资讯
春节大礼包!OpenAI首个视频生成模型发布,60秒高清大作,网友已叹服
OpenAI 正式发布了文本到视频生成模型 Sora,继 Runway、Pika、谷歌和 Meta 之后,OpenAI 终于加入视频生成领域的战争。
https://mp.weixin.qq.com/s/H2SDgcm
https://openai.com/research/video-generation-models-as-world-simulators
谷歌Gemini1.5火速上线:MoE架构,100万上下文
Gemini 1.5 建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上,包括通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。谷歌现在推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型,针对多种任务的扩展进行了优化,其性能水平与谷歌迄今为止最大的模型 1.0 Ultra 类似,并引入了长上下文理解方面的突破性实验特征。Gemini 1.5 Pro 配备了 128000 个 token 上下文窗口。但从今天开始,少数开发人员和企业客户可以通过 AI Studio 和 Vertex AI 的私人预览版在最多 100 万个 token 的上下文窗口中进行尝试。谷歌还进行了一些优化,以改善延迟、减少计算要求并增强用户体验。
Meta分享V-JEPA:通过观看视频教会机器理解和建模物理世界的方法
Meta 发布了一系列通过自监督学习和特征预测目标训练的V-JEPA视觉模型,一种通过观看视频教会机器理解和建模物理世界的方法。这项工作是朝着@ylecun概述的AI模型愿景迈出的又一个重要步骤,这种模型利用对世界的学习理解来规划、推理并完成复杂任务。它通过在其内部特征空间中预测缺失或被遮挡的视频部分来学习。与填补缺失像素的生成式方法不同,这种灵活的方法使得训练和样本效率提高了多达6倍。模型在完全未标记的数据上进行了预训练,少量标记数据可以在预训练后用来训练特定任务的预测头。结果显示,使用固定的主干网络,我们顶尖的V-JEPA模型在Kinetics-400上达到了82.0%,在Something-Something-v2上达到了72.2%,在ImageNet1K上达到了77.9%——与之前领先的视频模型相竞争或超越。
https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
突发!AI大牛Andrej Karpathy离开OpenAI
AI大牛Andrej Karpathy官宣了一条重要消息:他昨天已经从OpenAI离职,不过这中间没有什么戏剧性冲突,他只是想去尝试一下自己的个人项目。Karpathy在官宣离职的推文中写道,「是的,我昨天离开了OpenAI。首先,没发生什么特别的事情,这不是由于任何特定事件、问题或者争议导致的(但请继续提供阴谋论,因为它们确实很有趣 :))。实际上,在过去的大约一年时间里,在OpenAI的经历真的很棒——团队非常强大,人们非常棒,路线图也非常令人兴奋,我认为我们都有很多可以期待的。我的近期计划是致力于我的个人项目,看看会发生什么。那些关注我一段时间的人可能会对此有所了解。」
https://mp.weixin.qq.com/s/W51dVuCdPpJl86hy
苹果设计团队专访|软件与硬件副总裁谈 Apple Vision Pro 产品开发与体验
Apple Vision Pro 在 2024 年 2 月 2 日于美国上市,为探索 Apple Vision Pro,Apple 设计团队的成员—— Apple 人机界面设计副总裁 Alan Dye 以及工业设计副总裁 Richard Howarth 也在不久前接受了外媒的专访,以帮助我们了解这款设备背后的开发过程和设计理念。
https://mp.weixin.qq.com/s/6c0MieG5U8oqYth
英伟达官宣AI聊天机器人,本地RTX显卡运行,这是要挑战OpenAI?
在这波 AI 淘金热里,英伟达经常被称为那个「卖铲子的人」,而且卖的是难以替代的铲子。依靠这个角色,英伟达市值已经超越亚马逊,成美股第四大公司,离谷歌市值仅一步之遥。但值得注意的是,英伟达本身也在这波 AI 浪潮里淘金。刚刚,他们发布了一个对话机器人 ——「Chat with RTX」,面向 GeForce RTX 30 系列和 40 系列显卡用户(至少有 8GB VRAM)。有人开玩笑说,Sam Altman 进军芯片领域,黄仁勋进入聊天机器人的领域,这是 Sam vs Jensen 的时代。
7万亿美元:OpenAI超大芯片计划曝光,要重塑全球半导体行业
OpenAI 的 CEO 山姆・奥特曼(Sam Altman)引领了近期生成式 AI 的大发展。最近,他又有了一个宏伟目标:重塑全球半导体行业。据《华尔街日报》近日报道,奥特曼正在推动一个旨在提高全球芯片制造能力的项目,并在与包括阿联酋政府在内的不同投资者进行谈判。一位消息人士称,奥特曼可能要为这一计划筹集 5 万亿至 7 万亿美元。OpenAI 发言人表示:「OpenAI 就增加芯片、能源和数据中心的全球基础设施和供应链进行了富有成效的讨论,这对于人工智能和相关行业至关重要。鉴于国家优先事项的重要性,我们将继续向美国政府通报情况,并期待稍后分享更多细节。」7 万亿美元的融资数额,相当于整个西班牙所有房产的总和,英国 2023 年的 GDP 为 3.14 万亿美元,美国最大的上市公司微软和苹果的市值相加刚刚超过 6 万亿美元。
生成速度快SDXL一倍,9GB GPU也能运行,Stable Cascade来搞性价比了
Stability AI 作为文本到图像的「元老」,不仅在引领该领域的潮流方向,也在模型质量上一次次进行新的突破,这次是性价比的突破。就在前几天,Stability AI 又有新动作了:Stable Cascade 的研究预览版被推出。这款文本到图像模型进行了创新,它引入了一个三阶段方法,为质量、灵活性、微调和效率设定了新的基准,重点是进一步消除硬件障碍。此外,Stability AI 发布了训练和推理代码,允许进一步自定义模型及其输出。该模型可在 diffusers 库中进行推理。该模型以非商业许可发布,仅允许非商业使用。
OpenAI赋予ChatGPT记忆功能,由你掌控
很快你就能告诉 ChatGPT 忘记一些事情,或者在以后的对话中要求它记住特定的事情。今天,作为测试的一部分,OpenAI 开始为一小部分 ChatGPT 免费和付费用户推出新的功能,并在未来进行大规模的推广。该功能可让用户明确告诉 ChatGPT 记住某些内容或者用户查看它记住了什么。比如你住在郊区,更喜欢开车而不是乘坐公共交通,你可以简单地告诉 ChatGPT 这个事实(例如「记住我住在郊区,大部分时间开车」)。随着使用频率的增加,ChatGPT 对记忆功能将逐渐优化,为用户带来显著的改进。
三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5
如果你经常读 AI 大模型方向的论文,Yi Tay 想必是一个熟悉的名字。作为前谷歌大脑高级研究科学家,Yi Tay 为许多知名的大型语言模型和多模态模型做出了贡献,包括 PaLM、UL2、Flan-U-PaLM、LaMDA/Bard、ViT-22B、PaLI、MUM 等。根据 Yi Tay 个人资料统计,在谷歌大脑工作的 3 年多的时间里,他总共参与撰写了大约 45 篇论文,是其中 16 篇的一作。一作论文包括 UL2、U-PaLM、DSI、Synthesizer、Charformer 和 Long Range Arena 等。和大多数离开谷歌自主创业的 Transformer 作者一样,Yi Tay 在去年 3 月份宣布离开谷歌,并参与创办了一家名为 Reka 的公司,Yi Tay 担任该公司的首席科学家,主攻大型语言模型。随着时间的推移,刚刚,Yi Tay 宣布他们发布了新模型:Reka Flash,这是一种具有 SOTA 性能的、全新的 21B 多模态模型,该模型在语言和视觉基准方面可与 Gemini Pro 和 GPT 3.5 相媲美。三年16篇一作,前谷歌研究科学家Yi Tay官宣新模型,21B媲美Gemini Pro、GPT-3.5。
开源大模型正在重塑企业AI应用,16个案例看看它们如何落地
各种性能优异的大模型横空出世,开源大型语言模型在企业界的应用也逐渐引起广泛关注。不过,这也使新的问题浮出水面,企业应该怎样有效地部署和应用这些模型来发挥它们最大的价值呢?图灵奖得主 Yann LeCun 在 X 上向大家分享了一篇 VentureBeat 的文章。其探讨了开源 LLM 在商业环境中的潜力、挑战以及它们在不同行业中的实际应用案例。VentureBeat 和其他专家认为,开源 LLM 可能会对企业中的生成式人工智能产生更强大的影响。这种影响力可能超过了像 OpenAI 的 ChatGPT 或 Anthropic 这样的封闭模型。尽管有许多关于开源模型的实验或概念验证,但相对较少的成熟公司公开宣布他们已在实际商业应用中部署开源模型。
02 研究
陈丹琦团队新作:数据量砍95%,大模型性能更强了!Less is More
造大模型的成本,又被打下来了!这次是数据量狂砍95%。陈丹琦团队最新提出大模型降本大法——数据选择算法LESS, 只筛选出与任务最相关5%数据来进行指令微调,效果比用整个数据集还要好。指令微调正是让基础模型成为类ChatGPT助手模型的关键一步。
斯坦福最强家务机器人ALOHA 2来了,成本不到20万,联手谷歌DeepMind,完全开源
2023 年,斯坦福大学等机构推出了一个用于双机械手远程操作的低成本开源硬件系统 ALOHA,它可以远程操作并完成组装链条、托举乒乓球等复杂、丰富的任务。今年 1 月,谷歌 DeepMind 与斯坦福又联合推出了 Mobile ALOHA,同样可以进行远程操作并模仿双手操作,通过移动底座在大的空间范围内实现远程操作。这样一来,备菜、翻炒、出锅,洗衣、逗猫、浇花它是样样精通,名副其实的家务机器人火出了圈。今天,谷歌 DeepMind 联合斯坦福推出了 ALOHA 的增强版本 ——ALOHA 2。与一代相比,ALOHA 2 具有更强的性能、人体工程学设计和稳健性,且成本还不到 20 万元人民币。
MIT、IBM 团队巧妙的 AI 方法来解决「蛮力」数学问题
自牛顿时代以来,自然的基本定律——光学、声学、工程学、电子学,最终都归结为一组重要的、广泛的方程。现在,研究人员找到了一种新方法,可以使用受大脑启发的神经网络来比以前更有效地求解这些方程,在科学和工程领域有许多潜在的应用。相关研究以《Physics-enhanced deep surrogates for partial differential equations为题,发布在《Nature Machine Intelligence》上。
语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS
伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型。在语音处理和文本到语音(TTS)领域,这样的转变也正在发生,模型能够利用数千小时的数据,使合成结果越来越接近类人语音。在最近的一项研究中,亚马逊正式推出了 BASE TTS,将 TTS 模型的参数规模提升到了前所未有的 10 亿级别。
华为盘古大模型变「小」,1.5B也很能打
ChatGPT 等系列模型横空出世,以其强大的性能引起了全球的关注,有望改变人与计算机之间的交互方式,应用到千行百业。然而这些大型模型的实际需要极高的内存和计算资源,限制了它们在各种场景中的应用。例如,具有 175B 参数的 GPT-3 在使用 FP32 数据类型存储时需要大约 700GB 内存。尽管 7B 参数模型相对更高效,但其资源需求仍然难以直接部署在手机等边缘设备上。此外,尽管许多研究已经成功地打造出多个效果很好的大语言模型,但他们往往采用相似的训练策略。一方面,大量工作集中在收集和清理数据上,较少强调研究有效的训练策略。另一方面,大型模型的训练需要极高的计算资源投入,使得探索大量的优化策略并不切实际。在这篇工作中,作者以一个 1B 大小的语言模型作为载体,详细讨论了小的语言模型应该如何炼丹。作者从模型结构、参数初始化、模型优化方法三个角度展开研究:总结出四条提升小语言模型效果的炼丹术
谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练
大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而,奖励模型的关键要素可能会产生一些不良影响。来自卡内基梅隆大学(CMU)和 Google Research 的研究者联合提出了一种简单的、理论上严格的、实验上有效的 RLHF 新方法 —— 自我博弈偏好优化(Self-Play Preference Optimization,SPO)。该方法消除了奖励模型,并且不需要对抗性训练。
https://mp.weixin.qq.com/s/l6s5ccmxK39p4
RAG还是微调?微软出了一份特定领域大模型应用建设流程指南
在构建大语言模型应用程序时通常有两种常见的方法来整合专有和特定领域的数据:检索增强生成和微调。检索增强生成通过外部数据增强提示,而微调将额外的知识整合到模型本身中。不过,对这两种方法的优缺点了解的却不够充分。本文中,来自微软的研究者引入一个新的关注点:为需要特定背景和自适应响应的行业(农业)创建 AI 助手。本文提出了一个全面的大语言模型流程,用于生成高质量的、行业特定的问题和答案。该方法包含一个系统化的过程,包括鉴别和收集涵盖广泛农业主题的相关文档。接着清理和结构化这些文档,以便使用基本的 GPT 模型生成有意义的问答对。生成的问答对随后根据其质量进行评估和筛选。
ICLR 2024 | 首个零阶优化深度学习框架,MSU联合LLNL提出DeepZero
今天介绍一篇密歇根州立大学 (Michigan State University) 和劳伦斯・利弗莫尔国家实验室(Lawrence Livermore National Laboratory)的一篇关于零阶优化深度学习框架的文章 “DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training”,本文被 ICLR 2024 接收,代码已开源。
03 论文
百万长度视频和语言上的世界模型与RingAttention
当前的语言模型在理解世界的某些方面上存在不足,这些方面不容易用文字来描述,并且在处理复杂、长篇任务时很困难。视频序列提供了静态图像和语言中没有的有价值的时间信息,因此很适合与语言进行联合建模。这样的模型可以发展对人类文本知识和物理世界的理解,从而为辅助人类提供更广泛的人工智能能力。然而,从数百万个视频和语言序列中学习面临内存限制、计算复杂性和有限数据集等挑战。为了解决这些挑战,我们搜集了大量多样化的视频和书籍数据集,利用RingAttention技术可扩展地在长序列上进行训练,并逐渐将上下文大小从4K增加到1M个token。本文的贡献包括:(a)最大上下文大小的神经网络:我们在长视频和语言序列上训练了一个最大上下文大小的Transformer,为困难的检索任务和长视频理解设立了新的基准。 (b)解决克服视觉语言训练挑战的方案,包括使用遮罩序列打包以混合不同序列长度、损失加权以平衡语言和视觉以及模型生成的QA数据集用于长序列对话。 (c)使用RingAttention、遮罩序列打包和其他关键功能进行高度优化的实现,用于在数百万长度的多模态序列上进行训练。 (d)全面开源了一个能够处理长文档(LWM-Text、LWM-Text-Chat)和超过1M个token的视频(LWM、LWM-Chat)的7B参数模型系列。这项工作为在大规模视频和语言数据集上训练、发展人类知识和多模态世界的理解以及更广泛的能力铺平了道路。
http://arxiv.org/abs/2402.08268v1
数据工程:将语言模型扩展到128K上下文
本文研究了持续预训练技术,用于将语言模型的上下文长度扩展到128K,重点关注数据工程。我们假设长上下文建模,特别是“能够利用任意输入位置的信息”的能力,是大规模预训练中已经获得的能力,并且这种能力可以通过轻量级持续预训练在适当的数据混合上轻松扩展到比训练期间看到的上下文要长得多的情况(例如,从4K到128K)。我们研究持续预训练的“数量”和“质量”:(1)就数量而言,我们表明5亿到50亿个token足以使模型能够在128K的上下文中的任何位置检索信息;(2)就质量而言,我们的结果同样强调“领域平衡”和“长度上采样”。具体来说,我们发现在某些领域(如图书)简单地上采样更长的数据是一种常见做法,但会导致性能不佳,平衡的领域混合很重要。我们展示了在1B-5B个这种数据上对完整模型进行持续预训练是将语言模型上下文长度扩展到128K的有效且经济的策略。我们的方法优于强大的开源长上下文模型,并缩小了与GPT-4 128K等顶尖模型之间的差距。
http://arxiv.org/abs/2402.10171v1
刺猬与豪猪:带有Softmax模仿的表达性线性注意力
线性注意力已显示出改善Transformer效率的潜力,将注意力的二次复杂性降低到与序列长度成线性关系。这为(1)从头开始训练线性Transformer,(2)将特定任务的Transformer“微调-转换”为恢复任务性能的线性版本,以及(3)将诸如大型语言模型之类的Transformer“预训练-转换”为可在下游任务上微调的线性版本提供了令人兴奋的前景。然而,线性注意力通常在质量上不如标准的softmax注意力。为了弥合这一性能差距,我们发现先前的线性注意力缺乏与良好性能相关的softmax注意力的关键特性:低熵(或“尖锐”)权重和点积单调性。我们进一步观察到令人惊讶的简单特征映射,保留这些特性并匹配softmax性能,但在线性注意力中计算起来效率低下。因此,我们提出Hedgehog,一个可学习的线性注意力,保留了softmax注意力的尖锐和单调特性,同时保持线性复杂性。Hedgehog使用简单可训练的MLP生成模拟softmax注意力的注意力权重。实验证明,Hedgehog在从头开始训练和微调转换设置中恢复了超过99%的标准Transformer质量,比之前的线性注意力在带有因果GPT的WikiText-103上高出最多6个困惑度点,以及在微调的双向BERT上高出最多8.7个GLUE分数点。Hedgehog还实现了预训练模型的转换。将预训练的GPT-2转换为线性注意力变体,在125M次亚四次解码器模型的WikiText-103上实现了16.7个困惑度的最先进水平。最后,我们将预训练的Llama-2 7B转变为可行的线性注意力Llama。通过低秩调整,Hedgehog-Llama2 7B的ROUGE-1得分比基本标准注意力模型高出28.1个点,而先前的线性注意力导致降低了16.5个点。
http://arxiv.org/abs/2402.04347v1
3D高斯新视觉时代:综述
3D高斯喷洒(3D-GS)已经成为计算机图形领域的重要进展,提供了明确的场景表示和新颖的视图合成,而无需依赖神经网络,如Neural Radiance Fields(NeRF)。这项技术在机器人技术、城市地图制作、自主导航以及虚拟现实/增强现实等领域都有广泛的应用。鉴于3D高斯喷洒的日益普及和不断扩大的研究,本文介绍了过去一年相关论文的综述。我们根据特征和应用领域将综述分类,介绍了3D高斯喷洒的理论基础。通过这次综述,我们旨在让新研究人员了解3D高斯喷洒,为该领域的重要工作提供有价值的参考,并为未来研究方向提供启发,正如我们讨论的结论部分所述。
http://arxiv.org/abs/2402.07181v1
无需搜索达到国际象棋大师级水平
最近机器学习取得的突破性成功主要归因于规模:即规模庞大的基于注意力机制的架构和前所未有规模的数据集。本文研究了在象棋训练规模对结果的影响。与传统的棋盘引擎依赖复杂启发式、显式搜索或两者结合不同,我们在一个包含1000万场象棋对局的数据集上使用监督学习训练了一个拥有2.7亿参数的Transformer模型。我们用强大的Stockfish 16引擎提供行动值来标注数据集中的每个棋盘,导致大约150亿数据点。我们最大的模型在与人类的Lichess闪电赛上达到了2895的Elo分数,并成功解决了一系列具有挑战性的象棋谜题,无需任何专门领域的调整或显式搜索算法。我们还展示了我们的模型优于AlphaZero的策略和价值网络(不使用MCTS)以及GPT-3.5-turbo-instruct。对模型和数据集大小的系统调查表明,强大的象棋表现仅在足够的规模下才会出现。为验证我们的结果,我们进行了大量的设计选择和超参数消融实验。
http://arxiv.org/abs/2402.04494v1
Lumos:赋能多模态大语言模型与场景文本识别
本文介绍了Lumos,这是第一个具有文本理解能力的端到端多模式问答系统。Lumos的核心是一个场景文本识别(STR)组件,从第一人称视角图像中提取文本,其输出用于增强输入到多模式大语言模型(MM-LLM)。在构建Lumos时,我们遇到了与STR质量、总体延迟和模型推断相关的许多挑战。在本文中,我们深入探讨了这些挑战,并讨论了克服这些障碍所采用的系统架构、设计选择和建模技术。我们还为每个组件提供了全面的评估,展示了高质量和效率。
http://arxiv.org/abs/2402.08017v1
细粒度专家混合模型的扩展法则
混合专家模型(MoE)已经成为降低大型语言模型计算成本的主要解决方案。在这项工作中,我们分析了它们的规模特性,整合了扩展范围的变量。特别是,我们引入了一个新的超参数,粒度,其调整可以精确控制专家的大小。基于此,我们建立了微粒MoE的规模定律,考虑了训练 token 数量、模型大小和粒度。利用这些规律,我们推导出了给定计算预算的最佳训练配置。我们的研究结果不仅显示MoE模型始终优于密集Transformer,还凸显了当我们扩大模型大小和训练预算时,密集和MoE模型之间的效率差距扩大。此外,我们证明了将MoE中专家的大小设置为与前馈层相似的常见做法在几乎任何计算预算下都不是最佳的。
http://arxiv.org/abs/2402.07871v1
04 学习
从框架到经典方法,全面了解分布式深度强化学习DDRL
AlphaGo 是一个在人机博弈中赢得众多职业围棋手的 agent 机器人。随着 AlphaGo 的突破,深度强化学习(Deep Reinforcement Learning,DRL)成为一种公认的解决连续决策问题的有效技术。人们开发了大量算法来解决介于 DRL 与现实世界应用之间的挑战性问题,如探索与开发困境、数据低效、多 agent 合作与竞争等。在所有这些挑战中,由于 DRL 的试错学习机制需要大量交互数据,数据低效(data inefficiency)是最受诟病的问题。为了应对这一问题,受到分布式机器学习技术的启发,分布式深度强化学习 (distributed deep reinforcement learning,DDRL) 已提出并成功应用于计算机视觉和自然语言处理领域。有观点认为,分布式强化学习是深度强化学习走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。本文在回顾分布式深度强化学习 DDRL 基本框架的基础上,重点介绍了 IMPALA 框架系列方法。
【BBuf的CUDA笔记】十四,OpenAI Triton入门笔记二
本文是关于OpenAI Triton的入门笔记,主要探讨了使用Triton编写LayerNorm/RMSNorm kernel的细节。Triton简化了CUDA开发,使得不熟悉CUDA的开发者也能编写高效的LayerNorm kernel。文章通过对比PyTorch、Apex和Triton实现的LayerNorm性能,展示了Triton在不同场景下的性能优势。同时,文章深入解析了Triton LayerNorm kernel的实现,包括前向传播和反向传播的计算过程,以及如何利用Triton的自动调优和启发式特性来优化性能。这些技术细节对于理解Triton在深度学习中的高效并行计算能力至关重要。
https://mp.weixin.qq.com/s/ZjADeYg5
AI Infra论文阅读之LIGHTSEQ(LLM长文本训练的Infra工作)
LIGHTSEQ是一篇关于提升大型语言模型(LLM)长文本训练效率的研究论文。它提出了一种新的序列并行方法,通过优化通信量和计算通信重叠,显著减少了训练迭代时间。LIGHTSEQ的核心是DISTATTN,一种分布式内存高效精确注意力机制,它允许在序列维度上进行并行计算,同时支持不同数量的注意力头。此外,LIGHTSEQ还引入了负载均衡调度和rematerialization-aware checkpointing策略,进一步提高了训练速度。在实验中,LIGHTSEQ在Llama-7B模型上实现了1.24-2.01倍的端到端加速,并能支持比Megatron-LM更长的序列长度。代码基于Triton实现,开源可供研究和应用,详情请见大模型空间站社群。
AI领域精选文章(2024年汇总版)!
这篇文章是2024年AI领域的精选文章汇总,涵盖了机器学习、深度学习、时间序列等多个板块。文章提供了丰富的技术资源,包括Python人工智能学习路线、机器学习模型总结、优化算法、可视化技术、特征工程、模型可解释性、自动化机器学习库等。同时,还涉及了深度学习领域的图神经网络、强化学习、时间序列预测等前沿话题。此外,还包括了AI大模型、生成式人工智能(AIGC)以及ChatGPT等大规模语言模型的综述。这些内容旨在帮助读者深入理解AI技术,提升研究和开发能力。
注意:该公众号内容仅为精选汇总,如果对日报最新资讯及完整咨询感兴趣,欢迎大家扫码加入我们的大模型空间站社群,我们会在社群每天发布我们最新的日报,也鼓励大家讨论任何科技相关的话题。
奇绩大模型空间站集合了社群、闭门活动以及陆奇博士每天都在看的大模型日报,欢迎直接扫码进群和大模型空间站,最新的资讯和活动将持续更新。

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/02/17051.html