大模型周报：苹果 iOS 史上最大更新！

奇绩创坛大模型日报由奇绩创坛行研组的同学们精选编辑而成，如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享奇绩活动，欢迎大家一起交流！👇🏻

01 资讯

小红书开源「InstantID」效果炸裂，被Yann LeCun点赞，迅速蹿上Github热榜

最近，有一群来自小红书的 95 后神秘团队，自称 InstantX，搞了个大动作 —— 开源「InstantID」项目。InstantID 凭借着高质量的图像生成能力，在开源界掀起了一股热潮：不仅获得了众多技术大佬的点赞，更是在 GitHub 热榜上迅速飙升，成为焦点。这个「出片神器」，让用户只需上传一张照片，就能轻松定制出多种风格的 AI 写真。

https://mp.weixin.qq.com/s/Etl0HUVRdxwsgcM0ErqHjA

从零手搓MoE大模型，大神级教程来了

传说中GPT-4的“致胜法宝”——MoE（混合专家）架构，自己也能手搓了！Hugging Face上有一位机器学习大神，分享了如何从头开始建立一套完整的MoE系统。这个项目被作者叫做MakeMoE，详细讲述了从注意力构建到形成完整MoE模型的过程。作者介绍，MakeMoE是受到OpenAI创始成员Andrej Karpathy的makemore启发并以之为基础编写的。makemore是一个针对自然语言处理和机器学习的教学项目，意在帮助学习者理解并实现一些基本模型。同样，MakeMoE也是在一步步的搭建过程中，帮助学习者更深刻地理解混合专家模型。

https://mp.weixin.qq.com/s/gDtzzSRunUrKjoIUGSHCvA

小扎官宣Code Llama重量级更新，新增70B版本，但还有能力限制

今天，Meta 正式发布 Code Llama 70B，这是 Code Llama 系列有史以来最大、性能最好的型号。小扎：我们正在开源一个全新的改进版 Code Llama，包括一个更大的 70B 参数模型。编写和编辑代码已成为当今人工智能模型最重要的用途之一。事实证明，编写代码的能力对于人工智能模型更严谨、更合理地处理其他领域的信息也非常重要。我为这一进展感到自豪，并期待着将这些进展纳入 Llama 3 和未来的模型中。

https://mp.weixin.qq.com/s/od_YI7MVh_gThffcSM4xAg

苹果 iOS 史上最大更新！Siri 要上大模型了

苹果到底会以什么方式将大模型落地到自己的产品体系中？在科技巨头们纷纷推出搭载 AI 功能的软件和硬件以及服务，试图在人工智能领域占据一席之地时，苹果似乎一直保持着一种审慎的态度。不过，去年 10 月，有分析师透露，苹果可能计划在 2024 年底，通过 iOS 18 和 iPadOS 18 的发布，开始引入生成式 AI 功能。而现在，随着一些新的动态浮出水面，似乎可以窥见苹果在这一领域的新动向。根据彭博社报道，苹果将在今年 6 月的 WWDC 中推出带有重磅 AI 功能的 iOS 18，其分析师 Mark Gurman 更是将 iOS 18 视为「苹果历史上最大的 iOS 更新之一，甚至是最大的更新」。此前在去年 11 月，彭博社就报道称，苹果希望 iOS 18 能成为其多年来最「雄心勃勃、最引人注目」的更新。

https://mp.weixin.qq.com/s/4p4ZIt3kAY_kgnuaKIuAnw

多模态LLM多到看不过来？先看这26个SOTA模型吧

当前 AI 领域的关注重心正从大型语言模型（LLM）向多模态转移，于是乎，让 LLM 具备多模态能力的多模态大型语言模型（MM-LLM）就成了一个备受关注的研究主题。近日，腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个研究团队发布了一份综述报告，全面梳理了 MM-LLM 的近期进展。文中不仅总结了 MM-LLM 的模型架构和训练流程，而且还梳理了 26 个当前最佳的 MM-LLM。如果你正考虑研究或使用 MM-LLM，不妨考虑从这份报告开始研究，找到最符合你需求的模型。

https://mp.weixin.qq.com/s/Bvp0gBOkxHGH-XXNdrvOqg

字节版GPTs「扣子」上线了

在持续一年的大模型热潮之后，「智能体」成为了科技公司们新的押注方向之一。近日，字节跳动正式推出「Coze 扣子」AI Bot 开发平台。任何用户都可以快速、低门槛地搭建自己的 Chatbot，且平台支持用户将其一键发布到飞书、微信公众号、豆包等渠道。当然，除了可以创建自己的 Chatbot，Coze 官方还提供了 Bots 商店和插件。

链接：https://www.coze.cn/

https://mp.weixin.qq.com/s/efNjbeK8Zul39nLzQuawCg

02 论文

OLMo: 加速语言模型科学研究

语言模型已经成为自然语言处理研究和商业产品提供中不可或缺的工具。随着其商业重要性的增加，最强大的模型已经被封闭起来，只通过专有接口提供，其训练数据、架构和开发细节未公开。鉴于这些细节对于科学研究这些模型的重要性，包括它们的偏见和潜在风险，我们认为研究社区必须能够访问强大而真正开放的语言模型。为此，这个技术报告详细介绍了OLMo的首次发布，这是一种最先进的真正开放的语言模型以及构建和研究语言模型的科学的框架。与之前仅发布模型权重和推理代码的大多数努力不同，我们发布了OLMo和整个框架，包括训练数据、训练和评估代码。我们希望这个发布能够增强并加强开放研究社区，并激发创新的新浪潮。

http://arxiv.org/abs/2402.00838v1

LongAlign：大语言模型的长文本上下文对齐的方法

扩展大型语言模型以有效处理长上下文，需要在类似长度的输入序列上进行指令微调。为了解决这个问题，我们提出了LongAlign——用于长上下文对齐的指令数据、训练和评估的方法。首先，我们使用Self-Instruct构建了一个长指令跟踪数据集。为了确保数据的多样性，它涵盖了来自不同长上下文来源的广泛任务范围。其次，我们采用打包和排序批处理策略，加快了对具有不同长度分布的数据进行监督微调的速度。此外，我们开发了一种损失加权方法，在打包训练期间平衡损失对不同序列的贡献。第三，我们引入了LongBench-Chat基准来评估10k-100k长度查询的指令跟踪能力。实验证明，LongAlign在长上下文任务中比现有的LLMs配方表现提高了30％，同时还保持了它们处理短、通用任务的熟练程度。代码、数据和长对齐模型已在https://github.com/THUDM/LongAlign上开源。

http://arxiv.org/abs/2401.18058v1

重述互联网：计算和数据高效的大语言模型的秘诀

大语言模型经过在网络上大规模抓取的训练，这些数据往往是无结构、噪声大且表达不准确的。当前的扩展规律表明，从这样的数据中学习需要充足的计算和数据，而这些都随着所训练模型的规模增加而增加。由于预训练的大量计算成本和时间长，并且高质量数据在网络上可能变得更加稀缺，这种方式变得不可行。在这项工作中，我们提出了Web Rephrase Augmented Pre-training (WRAP)方法，使用一个现成的经过指导调整的模型来提示对文档进行重新表述，采用特定的风格，比如”像维基百科”或”问答格式”，来对真实数据和合成数据进行联合预训练。首先，我们通过在本就带有噪声的C4数据集上使用WRAP，加快了预训练速度约3倍。在相同的预训练计算成本下，它在Pile的不同子集上平均改善了10%以上的困惑度，并在13个任务中提高了零样本问答的准确性超过2%。其次，我们研究了重新表述风格对模型性能的影响，揭示了训练数据的组成如何影响LLM在OOD设置中的性能。我们的收益归因于重新表述合成数据比真实数据具有更高的效用，因为它(i)包含了与下游评估风格密切相关的风格多样性，以及(ii)比网络抓取的数据具有更高的”质量”。

http://arxiv.org/abs/2401.16380v1

噪声的力量：重新定义RAG系统中的检索方式

检索增强生成（RAG）系统是对传统大型语言模型（LLM）的显著改进。RAG系统通过在信息检索（IR）阶段引入外部数据来增强其生成能力，克服了标准LLM的限制，后者仅限于预训练的知识和有限的上下文窗口。目前这个领域的大部分研究主要集中在RAG系统中LLM生成方面。我们的研究通过彻底和批判性地分析IR组件对RAG系统的影响来填补这一空白。本文分析了检索者应具备的特征，以便有效地为RAG的提示制定，重点关注应检索的文档类型。我们评估了各种因素，例如文档与提示的相关性、其位置以及上下文中包含的数量。我们的发现揭示了一个重要见解，即包含无关文档可以意外地将准确性提高30％以上，与我们最初的降低质量的假设相矛盾。这些发现呼吁制定专门的方法，以适应将检索与语言生成模型集成的具体需求，并为未来的研究铺平道路。这些结果强调了发展专门策略以将检索与语言生成模型整合的需求，从而为该领域的未来研究奠定基础。

http://arxiv.org/abs/2401.14887v1

03 学习

2023年大语言模型融合技术调研与实践指南

本文探讨了大语言模型融合技术，介绍了五种融合算法：任务向量模型编辑（EMTA）、球面线性插值（SLERP）、修整选举合并（TIES）、剪枝缩放（DARE）和直通（Passthrough）。这些技术允许在不重新训练或使用GPU的情况下，通过合并不同模型的参数来增强模型能力。文章通过mergekit工具包展示了如何实现这些算法，并提供了配置示例。特别提到了使用SLERP方法创建的Marcoro14-7B-slerp模型，在Open LLM排行榜上表现优异。这些方法为未来语言模型的能力模块化组装提供了新途径。

https://mp.weixin.qq.com/s/f9tTYXO_PRYWu61ftoc4lA

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

文章详细介绍了推测解码技术，这是一种新兴的大型语言模型（LLM）推理加速方法。随着LLM规模的增长，如ChatGPT和Bard等应用的推理延迟对用户体验影响巨大。文章指出LLM推理主要受内存带宽限制，且传统的自回归解码效率低下。推测解码通过增加每步解码的并行性，减少总解码步数，从而提高推理速度。此技术在每个解码步高效“推测”未来多个解码步可能生成的token，再用目标LLM验证这些token，实现了在保证解码结果质量的同时加速推理。由于其优异的性能，推测解码受到学术和工业界广泛关注，已有众多相关研究和工程项目涌现。

https://zhuanlan.zhihu.com/p/678404136

写在跨年之前：聊聊LLM Agents的现状，问题与未来

作者在知乎专栏文章中讨论了LLM Agents的当前状况、问题和未来展望。首先给出了三种理解LLM Agents的视角，包括面向用户的实用定义、直观定义以及生产者视角的学术定义。接着深入讲解了构建LLM Agents时会使用到的一些技术，如RAG、CoT、多模态等，并探讨了各技术的细节、应用场景和潜在问题。此外，还涉及了如意图识别与执行、数据通路与行动框架等概念。最后，作者分享了对LLM Agents可能会遇到的问题的反思，以及未来的愿景，特别是在游戏领域中的应用。整篇文章围绕大型语言模型的智能体展开深入的分析和展望。

https://zhuanlan.zhihu.com/p/679177488

Language Modeling Is Compression?Google DeepMind 文章与Open AI的两次压缩与智能/泛化talk的笔记和想法

OpenAI与DeepMind的研究表明，AI的语言模型可视作无损压缩器，利用算术编码和概率模型进行有效的数据压缩。他们声称，通过语言模型的压缩能力评估可以预言AI在跨模态任务（如文本、图片、语音）上的表现。此外，该研究还挑战了关于模型大小与数据集大小的传统观点，认为虽然大型模型在大数据集上表现更好，但对小型数据集则恰恰相反。同时，实验结果也显示，模型在压缩上的表现并不总是与其在预测任务中的表现成正比，这些发现推动了我们对AI智能本质的理解进一步深入。

https://zhuanlan.zhihu.com/p/657899967?utm_medium=social&utm_oi=56635854684160&utm_psn=1735980432485855233&utm_source=wechat_timeline

大模型推理框架RTP-LLM对LoRA的支持

RTP-LLM推理框架支持LoRA技术，提供静态LoRA和动态LoRA两种方法。静态LoRA通过在模型加载时叠加LoRA权重，提高运行效率；动态LoRA则允许共享基座模型，根据业务需求动态选择LoRA参数，节省显存，提高灵活性。阿里集团的whale平台已集成这些解决方案，支持一键部署大型语言模型。动态LoRA通过分离base model和LoRA adapter，实现多任务显存共享，并通过热更新机制减少服务中断。后续计划优化显存分配策略，以支持更多LoRA Adapter。

https://mp.weixin.qq.com/s/em-mnps_Oqe1PLLpJ9hB-A