大模型日报和周报会在2月8-17日停更放假~
但是好消息:你会在2月18日早上收到奇绩的春节特刊,放心躺平嗑瓜子吧同学们,你错过的消息小编团队会帮你全都收集起来~
LLM SPACE祝大家新年快乐!
大模型周报由奇绩创坛大模型日报精选编辑而成,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享奇绩活动,欢迎大家一起交流!👇🏻

01 资讯
大的要来了:谷歌Bard被曝将更名为Gemini,Ultra 1.0更强但收费、安卓App也会来
谷歌 Bard 预计将从以下两个方面进行调整:一是 Bard 将正式更名为 Gemini,并亮相 Gemini Ultra 1.0 模型;二是 Gemini 安卓应用程序也将到来。对于这份日志更新,有网友期待地表示,谷歌 Gemini 几天后将大变身,GPT-5 也可能会在今年发布,这下 AI 圈又该热闹起来了。

张鹏对话 Pika 创始人 Demi:AGI 时代的产品,需要「少年气」和为用户「留白」
2023 年 11 月底,视频生成产品 Pika 发布 1.0 版本,同时宣布了 5500 万美元的融资消息。近期,极客公园创始人张鹏与 Pika 创始人 Demi Guo 在硅谷进行了一次深度交流,期间谈到了视频生成的技术现状,Demi 本人对 AI 产品、应用创业的思考,Pika 团队的优势和壁垒所在,以及她对 AI 初创团队的组织思考等等。

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉
2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。MoE 的广泛应用,使得在计算成本相对不变的条件下,模型容量能够得到显著扩展。此特性无疑使得 MoE 成为推动 LLM 发展的关键技术。MoE 设计的初衷,是使模型的学习更加 “术业有专攻”,其有效性已得到业界肯定。然而现有 MoE 架构训练中的弊端也逐渐凸显,主要包括:专家负载失衡、专家内样本混杂而专家间同质化现象严重、额外的通信开销等等。为了缓解现有 MoE 普遍存在的训练效率与性能瓶颈,专精于高性能计算、LLM 训练加速的华为 GTS AI 计算 Lab的研究团队提出了名为 LocMoE 的全新 MoE 架构,从路由机制角度出发,以期降低稀疏 LLM 训练成本的同时,提升其性能。

CMUÐ实现突破:机器狗点满敏捷值天赋,超高速穿越障碍,速度与安全兼备!
足式机器人领域又一次迎来创新!CMU 与 ETH Zurich 团队联合研发了一个名为 「敏捷但安全」(ABS,Agile But Safe)的新框架,为四足机器人在复杂环境中实现高速运动提供了解决方案。ABS 不仅在避免碰撞方面展现出高效能力,还在极速上达到了前所未有的 3.1 米秒!

通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5
赶在春节前,通义千问大模型(Qwen)的 1.5 版上线了。今天上午,新版本的消息引发了 AI 社区关注。新版大模型包括六个型号尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最强版本的性能超越了 GPT 3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多语言支持。阿里通义千问()团队表示,相关技术也已经上线到了通义千问官网和通义千问 App。除此以外,今天 Qwen 1.5 的发布还有如下一些重点:
支持 32K 上下文长度;
开放了 Base + Chat 模型的 checkpoint;
可与 Transformers 一起本地运行;
同时发布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 权重。

抛弃编码器-解码器架构,用扩散模型做边缘检测效果更好,国防科大提出DiffusionEdge
现有的深度边缘检测网络通常基于包含了上下采样模块的编码器 – 解码器架构,以更好的提取多层次的特征,但这也限制了网络输出既准又细的边缘检测结果。针对这一问题,一篇 AAAI 2024 上的论文给出了新的解决方案。国防科技大学 iGRAPE Lab 提出了首个用于二维边缘检测任务的扩散概率模型方法,通过学习迭代的去噪过程获得边缘结果图,去噪过程如图 1 所示。为了在保留最终性能的同时减少计算资源的消耗,该方法在隐空间中训练网络,并引入了不确定性蒸馏模块以更好的优化。同时,本方法还采用解耦架构来加速去噪过程,并提出了相应的自适应傅立叶滤波器来调整特征。基于这些设计,本方法得以用有限的资源进行稳定的训练,用更少的增强策略来预测清晰准确的边缘图。在四个公共基准数据集上的大量实验表明,本文提出的方法在准确度和粗细度上全面超越了其他方法。

02 论文
Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble
人类反馈强化学习(RLHF)是一种广泛采用的方法,用于使大型语言模型与人类价值观保持一致。然而,RLHF依赖于一个用有限的人类偏好数据训练的奖励模型,这可能导致预测不准确。结果,RLHF可能产生与人类价值观不一致的输出。为了缓解这个问题,我们贡献了一种奖励集成方法,允许奖励模型做出更准确的预测。由于使用基于大型语言模型的奖励模型集成在计算和资源上可能很昂贵,我们探索了包括线性层集成和LoRA基础集成在内的高效集成方法。实证上,我们使用我们的集成奖励模型运行最佳-n和近邻策略优化,验证我们的集成方法有助于提高RLHF输出的对齐性能。

https://arxiv.org/abs/2401.16635
Scavenging Hyena: Distilling Transformers into Long Convolution Models
大型语言模型(LLMs)的快速发展,特别是如GPT-4这样的架构,已经重塑了自然语言处理的格局。本文介绍了一种针对LLM预训练相关的效率问题的开创性方法,提出使用知识蒸馏进行跨架构转移。利用高效的Hyena机制的洞察力,我们的方法通过Hyena替换了变压器模型中的注意力头,提供了一种与传统预训练相比的成本效益高的替代方案,同时面对处理长期上下文信息的挑战,这是二次注意力机制固有的问题。与传统的以压缩为中心的方法不同,我们的技术不仅提高了推理速度,而且在准确性和效率方面都超过了预训练。在不断发展的LLMs时代,我们的工作为追求可持续AI解决方案做出了贡献,实现了计算能力和环境影响之间的平衡。

https://arxiv.org/pdf/2401.17574.pdf
超越极限:扩展大语言模型上下文长度的技术调查
最近,大语言模型(LLMs)展现出了显著的能力,包括理解上下文、进行逻辑推理和生成响应。然而,这是以严格的计算和内存要求为代价的,阻碍了它们有效支持长输入序列的能力。这项调查提供了对最近开发出的技术和方法进行全面审查,以延长LLMs中序列长度,从而增强它们对长上下文理解的能力。具体来说,我们审查和分类了一系列技术,包括架构修改,如修改的位置编码和改变的注意机制,旨在增强对更长序列的处理,同时避免计算要求成比例增加。本研究探讨的多样方法可以在LLMs的不同阶段,即训练、微调和推断中利用,从而使LLMs能够高效处理扩展序列。最后一节讨论了当前方法的局限性,同时提出了未来研究方向的建议,强调序列长度在LLMs持续发展中的重要性。

http://arxiv.org/abs/2402.02244v1
扩散世界模型
我们介绍了扩散世界模型(DWM),一种条件扩散模型,能够同时预测多步未来状态和奖励。与传统的一步动态模型相反,DWM在单次前向传递中提供了长视距预测,消除了需要递归查询的需求。我们将DWM集成到基于模型的值估计中,其中短期回报由从DWM中采样的未来轨迹模拟得出。在离线强化学习的背景下,DWM可以被视为通过生成建模实现保守价值规范化。或者,它可以被视为一个数据源,使离线Q-learning能够使用合成数据。我们在D4RL数据集上的实验证实了DWM对长视距模拟的鲁棒性。就绝对表现而言,DWM显著超越了一步动态模型,性能提高了44%,并达到了最先进的性能水平。

http://arxiv.org/abs/2402.03570v1
音乐RL:将音乐生成与人类喜好对齐
我们提出了MusicRL,这是第一个通过人类反馈进行微调的音乐生成系统。文本到音乐模型的欣赏特别主观,因为音乐性的概念以及标题背后的具体意图取决于用户(例如,“快节奏的健身音乐”这样的标题可以对应复古吉他独奏或电子流行节拍)。这不仅使这种模型的监督训练具有挑战性,而且还需要在部署后微调中整合连续的人类反馈。MusicRL是预训练的自回归MusicLM(Agostinelli等人,2023)模型,使用增强学习进行微调,以最大化序列级奖励。我们设计了与文本一致性和音频质量相关的奖励函数,借助选定的评分者的帮助,并将这些用于将MusicLM微调为MusicRL-R。我们将MusicLM部署给用户,并收集了一个包含30万个成对偏好的数据集。使用来自人类反馈的强化学习(RLHF),我们训练了MusicRL-U,这是第一个以规模整合人类反馈的文本到音乐模型。人类评估显示,MusicRL-R和MusicRL-U都优于基线模型。最终,MusicRL-RU结合了这两种方法,并根据人类评分者的评价得出最佳模型。消融研究揭示了影响人类偏好的音乐属性,表明文本一致性和质量仅占其中一部分。这突显了音乐欣赏中主观性的普遍存在,并呼吁在音乐生成模型的微调中进一步涉及人类听众。

http://arxiv.org/abs/2402.04229v1
03 学习
MoE-LLaVA:具有高效缩放和多模态专业知识的大型视觉语言模型
MoE-LLaVA是一个大型视觉语言模型,它采用了“专家混合”策略,通过动态选择最相关的专家来处理视觉和语言数据,从而提高了模型的效率和性能。这种设计减少了计算资源消耗,使得模型在保持高性能的同时,能够更有效地理解和交互多媒体内容。MoE-LLaVA的架构包括视觉编码器、词嵌入层、MLP、分层LLM块和MoE模块等组件,通过Top-k专家激活和稀疏路径实现高效的数据处理。MoE-tuning训练策略分为三个阶段,优化了模型的多模态理解能力。MoE-LLaVA在视觉理解任务中表现出色,超越了现有LVLMs的性能,为人工智能领域的发展提供了新的方向。
训练10B的模型需要多大的数据?详解大模型中的Scaling Law
Scaling Law(缩放定律)是大模型训练中的一个重要概念,它描述了模型性能与计算量、模型参数量和数据量之间的关系。根据Scaling Law,模型性能主要与这三者相关,而与模型结构(如层数、深度、宽度)关系不大。在训练Decoder-only模型时,计算量、模型参数量和数据量之间存在幂律关系。为了提升性能,模型参数量需要与数据量同步放大,但具体的放大比例存在争议。Scaling Law不仅适用于语言模型,还适用于其他模态和跨模态任务。在实际应用中,推理阶段的效率比训练阶段更重要,因此LLaMA(Large Language Model Adapted for Meta)项目强调在有限推理资源下训练较小模型以获得最佳性能。Scaling Law的推导涉及模型结构的参数量计算和前向推理的计算量分析。
2023年大语言模型智能体规划技术(LLM Agent Planning)研究进展汇总
2023年大语言模型智能体规划技术(LLM Agent Planning)的研究进展涉及多个领域,包括零样本规划、复杂推理、嵌入式任务规划、少样本学习、交互式规划等。研究者们探讨了如何利用大型语言模型(LLM)提取可操作知识、进行复杂推理、执行任务规划,并在虚拟环境中进行评估。这些研究展示了LLM在规划任务中的潜力,尤其是在结合环境感知和物理反馈时。同时,也提出了新的提示策略和框架,如由少到多的提示、交互式规划方法(DEPS)和多模态程序规划(MPP),以及如何通过规划标记和树搜索等技术提升LLM的规划能力。这些进展为开发能够快速学习新任务、具有高样本效率的多功能智能体打开了新的可能性。
AI领域精选文章(2024年汇总版)!
这篇文章是2024年AI领域的精选文章汇总,涵盖了机器学习、深度学习、时间序列等多个板块。文章提供了丰富的技术资源,包括Python人工智能学习路线、机器学习模型总结、优化算法、可视化技术、特征工程、模型可解释性、自动化机器学习库等。同时,还涉及了深度学习领域的图神经网络、强化学习、时间序列预测等前沿话题。此外,还包括了AI大模型、生成式人工智能(AIGC)以及ChatGPT等大规模语言模型的综述。这些内容旨在帮助读者深入理解AI技术,提升研究和开发能力。
奇绩大模型空间站集合了社群、闭门活动以及陆奇博士每天都在看的大模型日报,欢迎直接扫码进群和大模型空间站,最新的资讯和活动将持续更新。

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/02/17081.html