我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

Reka AI 刘琦：多模态大模型与 Agent 的训练与实践 | 奇绩潜空间活动报名

【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区，定期邀请大模型前沿创业者分享产品实践探索，邀请前沿科研学者分享最新技术进展。

第五季第四期潜空间邀请到的嘉宾是 Reka AI 联合创始人，香港大学计算机科学系助理教授 ——刘琦，他分享的主题是《多模态大模型与智能 Agent 的训练与实践：打造自动化驱动的智能化未来》。

学术分析报告：ResearchFlow — 奇绩F23校友的开发的深度研究产品，PC端进入RFlow的分析报告，可直接点击节点右侧的小数字展开节点，登录后可在节点上直接“询问AI”，进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

信号

Transformer2: Self-adaptive LLMs

自适应大型语言模型 (LLM) 旨在解决传统微调方法带来的挑战，这些方法通常需要大量计算，并且在处理各种任务的能力上是静态的。我们引入了 Transformer2，这是一种新颖的自适应框架，它通过选择性地仅调整权重矩阵的奇异分量，实时调整 LLM 以适应未见过的任务。在推理过程中，Transformer2 采用两遍机制：首先，调度系统识别任务属性，然后使用强化学习训练的任务特定“专家”向量进行动态混合，以获得针对传入提示的目标行为。我们的方法优于 LoRA 等普遍使用的方法，参数更少，效率更高。Transformer2 展示了跨不同 LLM 架构和模式的多功能性，包括视觉语言任务。 Transformer2 代表着一次重大的飞跃，它为增强 LLM 的适应性和特定任务性能提供了可扩展、高效的解决方案，为真正动态、自组织的 AI 系统铺平了道路。

原文链接：http://arxiv.org/abs/2501.06252v2

ResearchFlow链接：https://rflow.ai/flow/a547be70-dc49-4e4c-93b6-3a42bbc7a38f

VideoAuteur: Towards Long Narrative Video Generation

最近的视频生成模型在制作持续数秒的高质量视频片段方面表现出了良好的效果。然而，这些模型在生成传达清晰信息丰富的事件的长序列方面面临挑战，限制了它们支持连贯叙述的能力。在本文中，我们展示了一个大规模烹饪视频数据集，旨在推进烹饪领域的长篇叙事生成。我们分别使用最先进的视觉语言模型 (VLM) 和视频生成模型，在视觉保真度和文本字幕准确性方面验证了我们提出的数据集的质量。我们进一步引入了一个长叙事视频导演，以增强生成的视频中的视觉和语义连贯性，并强调对齐视觉嵌入在实现整体视频质量改进方面的作用。我们的方法在生成视觉细节和语义对齐的关键帧方面表现出了显著的改进，这得益于在视频生成过程中集成文本和图像嵌入的微调技术。

原文链接：http://arxiv.org/abs/2501.06173v1

ResearchFlow链接：https://rflow.ai/flow/fee9c9bb-635c-4b1c-8800-3b11ac82ae92

WebWalker: Benchmarking LLMs in Web Traversal

检索增强生成 (RAG) 在开放域问答中的各项任务中表现出色。然而，传统搜索引擎可能会检索浅层内容，从而限制了 LLM 处理复杂、多层信息的能力。为了解决这个问题，我们引入了 WebWalkerQA，这是一个旨在评估 LLM 执行 Web 遍历能力的基准。它评估 LLM 遍历网站子页面以系统地提取高质量数据的能力。我们提出了 WebWalker，这是一个多智能体框架，它通过探索-批评范式模仿类似人类的 Web 导航。大量的实验结果表明，WebWalkerQA 具有挑战性，并通过在现实场景中的横向和纵向集成证明了 RAG 与 WebWalker 相结合的有效性。

原文链接：https://arxiv.org/abs/2501.07572v2

ResearchFlow链接：https://rflow.ai/flow/84fabdd1-72c1-4f6d-95bb-1096753d9af2

Asymptotic-Preserving Neural Networks based on Even-odd Decomposition for Multiscale Gray Radiative Transfer Equations

我们提出了一种新颖的渐近保持神经网络 (APNN) 方法，利用奇偶分解来解决非线性灰辐射传输方程 (GRTE)。我们的 AP 损失在较小的 Knudsen 数上表现出一致的稳定性，确保神经网络解均匀收敛到宏观解。这种 APNN 方法减轻了严格的守恒要求，同时结合了辅助深度神经网络，使其有别于基于 GRTE 微宏分解的 APNN 方法。我们研究了几个数值问题，以证明我们提出的 APNN 技术的有效性。

原文链接：http://arxiv.org/abs/2501.08166v1

ResearchFlow链接：https://rflow.ai/flow/e529a4ec-658b-4c36-8fb9-de6f51197f2c

MinMo: A Multimodal Large Language Model for Seamless Voice Interaction

大型语言模型 (LLM) 和多模态语音文本模型的最新进展为无缝语音交互奠定了基础，可实现实时、自然和类似人类的对话。之前的语音交互模型分为原生模型和对齐模型。原生模型将语音和文本处理集成在一个框架中，但存在序列长度不同和预训练不足等问题。对齐模型保留了文本 LLM 功能，但通常受到数据集较小和仅关注语音任务的限制。在这项工作中，我们推出了 MinMo，这是一个多模态大型语言模型，具有大约 8B 个参数，可实现无缝语音交互。我们解决了之前对齐的多模态模型的主要局限性。我们通过语音到文本对齐、文本到语音对齐、语音到语音对齐和双工交互对齐等多个阶段对 MinMo 进行训练，训练基于 140 万小时的多样化语音数据和广泛的语音任务。经过多阶段训练后，MinMo 在语音理解和生成方面在各种基准测试中都取得了最佳表现，同时保持了文本 LLM 的功能，并且还支持全双工对话，即用户和系统之间同时进行双向通信。此外，我们提出了一种新颖而简单的语音解码器，其语音生成性能优于之前的模型。MinMo 增强的指令跟随能力支持根据用户指令控制语音生成，包括情绪、方言和语速等各种细微差别，以及模仿特定的声音。对于 MinMo 来说，语音到文本的延迟约为 100 毫秒，全双工延迟在理论上约为 600 毫秒，在实践中约为 800 毫秒。MinMo 项目网页是这个 https URL，代码和模型将很快发布。

原文链接：http://arxiv.org/abs/2501.06282v1

ResearchFlow链接：https://rflow.ai/flow/4b4c18ca-7578-4c28-b82e-de6bbffa25d0

MiniMax-01: Scaling Foundation Models with Lightning Attention

我们推出了 MiniMax-01 系列，包括 MiniMax-Text-01 和 MiniMax-VL-01，它们可与顶级模型相媲美，同时在处理更长的上下文方面具有卓越的能力。核心在于闪电注意力及其高效的扩展。为了最大限度地提高计算能力，我们将其与混合专家 (MoE) 相结合，创建一个拥有 32 位专家和 4560 亿个参数的模型，其中每个 token 激活 459 亿个参数。我们为 MoE 和闪电注意力开发了一种优化的并行策略和高效的计算通信重叠技术。这种方法使我们能够在涵盖数百万个 token 的上下文中对具有数千亿个参数的模型进行高效的训练和推理。MiniMax-Text-01 的上下文窗口在训练期间最多可以达到 100 万个 token，在推理期间可以推断出 400 万个 token，而且成本低廉。我们的视觉语言模型 MiniMax-VL-01 是通过对 5120 亿个视觉语言 token 进行持续训练而建立的。在标准和内部基准测试中的实验表明，我们的模型与 GPT-4o 和 Claude-3.5-Sonnet 等最先进的模型的性能相当，同时提供了 20-32 倍的上下文窗口。我们在此 https URL 上公开发布了 MiniMax-01。

原文链接：https://arxiv.org/abs/2501.08313

HuggingFace&Github

Github Copilot

智能代码补全：能够根据上下文和已有的代码，实时提供代码补全建议，涵盖多种编程语言，帮助开发者快速编写代码，提高编码效率。
代码生成：根据自然语言描述生成相应的代码片段。开发者只需用简单的文字描述想要实现的功能，Copilot 就能生成相关的代码，如 “创建一个函数，用于计算两个数的和”，它会生成类似function addNumbers(num1, num2) { return num1 + num2; }的代码。
学习和适应能力：随着使用时间的增加，它会学习开发者的编码风格和习惯，提供更符合个人偏好的建议。
支持多种开发场景：适用于各种开发任务，包括但不限于 Web 开发、数据科学、移动应用开发等。无论是构建前端界面、处理后端逻辑还是进行数据分析，都能提供有效的辅助。
提高开发效率和质量：通过减少开发者查找文档、手动编写重复代码的时间，让开发者将更多精力集中在核心业务逻辑和创新上，同时其生成的代码在一定程度上可以保证质量和准确性，减少低级错误。
集成到开发环境：可以轻松集成到常见的集成开发环境（IDE）中，如 Visual Studio Code 等，使用方便，无需开发者切换到其他界面或工具，在熟悉的开发环境中即可享受其功能。