欢迎观看大模型日报 , 如 需 进 入 大 模 型 日 报 群 和 空 间 站 请 直 接 扫 码 。 社 群 内 除 日 报 外 还 会 第 一 时 间 分 享 大 模 型 活 动 。
推特
吴恩达分析AI主体工作流设计模式–反思,相对快速实现的设计模式,却能带来巨大性能提升
上周,我描述了四种我认为今年将推动重大进展的AI主体工作流设计模式:反思、工具使用、规划和多主体协作。与直接让LLM生成最终输出不同,主体工作流会多次提示LLM,让其有机会一步步构建更高质量的输出。在这里,我想讨论反思。对于一种相对快速实现的设计模式,我已经看到它带来了令人惊讶的性能提升。
你可能有过这样的经历:提示ChatGPT/Claude/Gemini,收到不满意的输出,提供批判性反馈以帮助LLM改进其响应,然后获得更好的响应。如果你自动化提供批判性反馈的步骤,让模型自动批评自己的输出并改进其响应,会怎样?这就是反思的关键。
以要求LLM编写代码的任务为例。我们可以直接提示它生成所需的代码来执行某个任务X。之后,我们可以提示它反思自己的输出,也许如下:
仔细检查代码的正确性、风格和效率,并提供有关如何改进它的建设性批评。
有时这会导致LLM发现问题并提出建设性建议。接下来,我们可以使用包含(i)之前生成的代码和(ii)建设性反馈的上下文提示LLM,并要求它使用反馈重写代码。这可以产生更好的响应。重复批评/重写过程可能会带来进一步的改进。这种自我反思过程允许LLM发现差距并改进其在各种任务上的输出,包括生成代码、编写文本和回答问题。
我们还可以超越自我反思,为LLM提供有助于评估其输出的工具;例如,通过一些单元测试运行其代码,以检查它是否在测试用例上产生正确的结果,或搜索网络以双重检查文本输出。然后它可以反思发现的任何错误,并提出改进的想法。
此外,我们可以使用多主体框架实现反思。我发现创建两个不同的主体很方便,一个提示生成良好的输出,另一个提示对第一个主体的输出提供建设性批评。两个主体之间由此产生的讨论会带来改进的响应。
反思是一种相对基本的主体工作流类型,但在某些情况下,我对它如何改善我的应用程序的结果感到高兴。我希望你也能在自己的工作中尝试它。如果你有兴趣了解更多关于反思的信息,我推荐这些论文:
Self-Refine:使用自我反馈的迭代细化,Madaan等人(2023年)
Reflexion:具有口头强化学习的语言主体,Shinn等人(2023年)
CRITIC:大型语言模型可以通过工具交互式批评进行自我纠正,Gou等人(2024年)
[原文:https://deeplearning.ai/the-batch/issue-242/]
https://x.com/AndrewYNg/status/1773393357022298617?s=20
YC Friedman分享:25个训练自己AI模型的YC公司
以下是25家训练了自己的AI模型的YC公司列表。通读这些内容将让你对不远的将来会是什么样子有一个很好的认识。
(1/25) Atmo (@atmo_ai): Atmo用AI驱动的预测取代了传统的基于物理的天气模拟。这在计算效率上提高了40,000倍,意味着它可以更便宜和更准确。
如果你住在旧金山,我建议你把他们作为你的主要天气来源 – 他们比现有的天气应用要准确得多: https://sf.atmo.ai
(2/25)Can of Soup(@canofsoup_inc):Can of Soup是一款应用程序,你可以在其中使用AI在想象的情况下创建你和朋友的照片。他们在YC期间构建并推出了第一个可以做到这一点的模型。
https://x.com/snowmaker/status/1773402574332530953?s=20
Jamba:SSM-Transformer开放模型,单 GPU 实现3 倍吞吐量
介绍Jamba,我们开创性的 SSM-Transformer 开放模型!
作为基于 Mamba 架构的第一个生产级模型,Jamba 在单个 GPU 上实现了前所未有的 3 倍吞吐量,并适用于 140K 上下文。
🥂认识 Jamba http://ai21.com/jamba
https://x.com/AI21Labs/status/1773350888427438424?s=20
相关讨论:
Shawn Wang:我对今天@AI21Labs的Jamba印象非常深刻。这是我们看到的第一个合法的Mixtral杀手,它不知从何而来:
https://buttondown.email/ainews/archive/ainews-jamba-mixture-of-architectures-dethrones/
他们帮助我重新定义了模型”重量级”的概念,从”参数数量”(随着MoEs和混合架构的出现,这个概念越来越过时)到”默认系统要求”。它在每个基准测试中都与Mixtral相当,但每个架构选择似乎都是为了最大化单个80GB A100 GPU,这使得它在长上下文用例中要好得多(在你关心的每个效率/速度维度上都好2-3倍)。
这种高效的长上下文处理正是Mamba所承诺的,但直到现在才变得更加清晰,并再次改变了我对Mamba何时/是否会取代Transformers的时间表(更有可能的是,它们像Jamba和StripedHyena那样混合层)。也不要错过Cobra – https://x.com/swyx/status/1773431296687247406?s=20 Mamba也可能在多模态应用中大获全胜。
最后 – 我认为只发布基础模型有点天才。Jamba开箱即支持PEFT。AI21要求你不要根据他们的指令调优来评判他们 – 破解的东欧阿尔法码农大军肯定会为他们做这件事 – 鉴于强大的基础指标,他们肯定会这样做。
https://x.com/tri_dao/status/1773418926518734957?s=20
Tri Dao:哇,这是一件大事,第一个大规模基于Mamba的模型!Mamba层带来了更长的上下文和更高的推理吞吐量。拥有4个注意力层似乎是获得Transformer和Mamba架构优势的最佳选择。
https://x.com/maximelabonne/status/1773401281891082360?s=20
Maxime Labonne:我玩了一下Jamba:它看起来是一个了不起的模型。
在架构方面,MoE的实现与Mixtral非常接近。最棒的是它还没有经过微调。很想看看通过SFT我们能获得多大的改进。
如果你想试用一下,我做了一个小笔记本(不过我用的是A100 80GB,而不是Colab):
https://colab.research.google.com/drive/1swHmnAyixlPBA37zA1eDxrTtO5fCDcRe?usp=sharing
https://x.com/swyx/status/1773500332628492375?s=20
Samba-CoE v0.2:330 tokens/s速度,超过DBRX等
🚀🌟🚀 激动地宣布 Samba-CoE v0.2,它以 330 tokens/s 的惊人速度超越了 @DbrxMosaicAI 和 @databricks 的 DBRX、@MistralAI 的 Mixtral-8x7B 以及 @grok 的 Grok-1。
这些突破性的速度是在不牺牲精度的情况下,仅使用 8 个插槽实现的,展示了数据流的真正能力!当你可以使用 16 位并且只需 8 个插槽运行时,为什么要购买 576 个插槽并降到 8 位呢?在这里试用该模型并查看速度 – https://coe-1.cloud.snova.ai。
我们还提供了我们下一个模型 Samba-CoE v0.3 的预览,它将很快与我们的合作伙伴 @LeptonAI 一起推出。阅读更多关于此公告的信息,请访问 https://sambanova.ai/blog/accurate-models-at-blazing-speed
https://x.com/SambaNovaAI/status/1773420223175213174?s=20
LeCun哈佛大学演讲:目标驱动的人工智能,走向能够学习、记忆、推理、规划、具有常识,但又可控制且安全的AI系统
https://drive.google.com/file/d/1Ymx_LCVzy7vZXalrVHPXjX9qbpd9k_bo/view?usp=drivesdk
走向能够学习、记忆、推理、规划、具有常识,但又可控制且安全的AI系统
https://x.com/ylecun/status/1773508991714300347?s=20
Hume分享EVI相关Q&A,开放API waitlist:不仅可以聊天,还可以采取行动
我们收到了很多关于EVI背后的技术和科学的问题——以下是对最热门问题的回答!
表情标签并不表示情绪体验。它们是你语调变化的代表。
我们的API基于我们自己的共情LLM(eLLM),并可以融合来自外部LLM API的响应。演示包含了Claude 3 Haiku。
在此注册 http://bit.ly/evi-waitlist,我们的团队会与你联系 !
https://x.com/hume_ai/status/1773502170488361240?s=20
Hume的EVI API不仅可以聊天,还可以采取行动!事实上,我们将EVI作为小部件嵌入到我们的网站,以帮助您导航。看看它的实际效果→
https://x.com/hume_ai/status/1773418096499257528?s=20
Qwen1.5-MoE-A2.7B:只有2.7B活跃参数,与7B模型质量相当
在享受完大型MoE模型之后,为什么不看看一个小型的呢?这就是它,Qwen1.5-MoE-A2.7B,一个只有2.7B活跃参数的14B MoE模型!
HF:https://huggingface.co/Qwen,在模型名称中搜索包含”Qwen1.5-MoE-A2.7B”的仓库。
GitHub:https://github.com/QwenLM/Qwen1.5
博客:https://qwenlm.github.io/blog/qwen-moe/
每个MoE层有64个专家,每个token激活8个,其中4个用于所有token,4个基于路由
现在它只受HF transformers和vLLM支持。对于这两者,你需要从源代码安装,因为包含 qwen2_moe
的最新版本还没有发布。
这对我们来说也是新的东西。希望你喜欢,欢迎随时给我们反馈!
https://x.com/JustinLin610/status/1773370228296007951?s=20
Perplexity AI Playground光速上线DBRX,免费提供聊天所需的一切
世界上最好的开源聊天LLM,DBRX,现在可以在http://labs.perplexity.ai上免费使用。Perplexity Labs Playground基本上免费提供了聊天所需的一切,其LLM(Haiku、DBRX、Sonar)比支持免费chatGPT的3.5-turbo模型更好。很想知道人们认为DBRX和Haiku哪个更好。
https://x.com/AravSrinivas/status/1773416858114503090?s=20
Shumer分享:使用Cluade3为代码自动生成单元测试
以下是一个非常有用的 Claude 3 提示,专为工程师设计。
你是一位专业的软件测试员,负责全面测试给定的代码。你的目标是生成一套综合的测试用例,用于运行代码并发现任何潜在的 bug 或问题。
首先,仔细分析提供的代码。理解其目的、输入、输出以及它执行的任何关键逻辑或计算。花大量时间考虑需要测试的所有不同场景和边缘情况。
接下来,列出一个你认为完全验证代码正确性所需的测试用例清单。对于每个测试用例,在表格中指定以下内容:
测试类型:测试的类别(如正向测试、负向测试、边界情况测试等)
在表格形式定义所有测试用例后,为每个用例编写实际的测试代码。确保测试代码遵循以下步骤:
对每个测试,提供清晰的注释,解释测试的内容及其重要性。
完成所有单个测试用例的编写后,检查它们是否覆盖了全部场景。考虑是否需要添加其他测试以确保完整性。
最后,提供测试覆盖范围的摘要以及从这个测试计划练习中获得的任何见解。
https://x.com/mattshumer_/status/1773385952699789808?s=20
AI机遇:Sequoia Capital 2024年AI峰会开幕致辞
在美国红杉资本举办的第二届AI峰会上,合伙人Pat Grady、Sonya Huang以及Konstantine Buhler分享了AI如何展现其持久价值,并讨论了AI技术未来的发展方向。特别强调了生成式AI在短时间内实现了传统SaaS多年才能达到的营收水平,预示着软件未来可能取代服务,开启数万亿市场的可能。此次峰会不仅展望了AI技术的未来应用和商业模式,还深入探讨了AI如何帮助人类以更少的资源解决更多问题,共创美好未来,展现了红杉资本对AI技术革命性影响的深刻洞察。
https://www.youtube.com/playlist?list=PLOhHNjZItNnOoPxOF3dmq30UxYqFuxXKn
https://twitter.com/sequoia/status/1772736935758373370?t=MCwwA2t8gq4YI4RPLfvBrw&s=19
资讯
Attention isn’t all you need!Mamba混合大模型开源:三倍Transformer吞吐量
自 2017 年开创性研究论文《Attention is All You Need》问世以来,transformer 架构就一直主导着生成式人工智能领域。然而,transformer 架构实际上有两个显著缺点:
内存占用大:Transformer 的内存占用量随上下文长度而变化。这使得在没有大量硬件资源的情况下运行长上下文窗口或大量并行批处理变得具有挑战性,从而限制了广泛的实验和部署。
随着上下文长度的增加,推理速度会变慢:Transformer 的注意力机制随序列长度呈二次方扩展,并且会降低吞吐量,因为每个 token 都依赖于它之前的整个序列,从而将长上下文用例置于高效生产的范围之外。
但 transformer 并不是生成式人工智能唯一的前进方向。最近,AI21 Labs 推出并开源了一种名为「Jamba」的新方法,在多个基准上超越了 transformer。
吴恩达红杉美国 AI 峰会谈 Agent Workflow 以及 4 种主流设计模式,相比 LLM 更强调迭代与对话
吴恩达教授在美国红杉AI 活动上关于 Agent 的最新趋势与洞察。吴恩达表示 Agent 工作流程与传统使用 LLM 的方式不同,它更加迭代和对话式。目前,有 4 种主要的 Agent 设计模式,分别是:
1)Reflection:让 Agent 审视和修正自己生成的输出;2)Tool Use:LLM 生成代码、调用 API 等进行实际操作;3)Planning:让 Agent 分解复杂任务并按计划执行;4)Multiagent Collaboration:多个 Agent 扮演不同角色合作完成任务;
这些设计模式目前还在快速发展中,有的比较成熟可靠,有的仍存在不确定性,但都展现了提高 AI 能力的潜力。吴恩达认为,未来 AI Agent能力将大幅扩展,我们需要学会将任务委托给 Agent 并耐心等待结果,而不是追求即时响应。另外,快速 token 生成也很重要,即使基于质量较低的LLM,快速迭代生成新 token 也可能获得良好结果。
马斯克大模型Grok1.5来了:推理能力大升级,支持128k上下文
Grok 1 开源才刚有 10 天,Grok 1.5 就来了。本周五早上,马斯克旗下的人工智能公司 xAI 正式推出了 Gork 大模型的最新版本 Grok-1.5。新一代模型实现了长上下文理解和高级推理能力,计划将在未来几天内向早期测试人员和 X 平台(前 Twitter)上的现有 Grok 用户提供。上周一,马斯克刚刚开源了 3140 亿参数的混合专家(MoE)模型 Grok-1。通过开源 Grok-1 的模型权重和网络架构,Gork 项目已展示了 xAI 截至去年 11 月所取得的进展。在最新模型 Grok-1.5 中,Gork 又有了进一步提高。
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
大模型的幻觉终于要终结了?今日,社媒平台 reddit 上的一则帖子引起网友热议。帖子讨论的是谷歌 DeepMind 昨日提交的一篇论文《Long-form factuality in large language models》(大语言模型的长篇事实性),文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说,大语言模型幻觉不再是问题了。我们知道,大语言模型在响应开放式主题的 fact-seeking(事实寻求)提示时,通常会生成包含事实错误的内容。DeepMind 针对这一现象进行了一些探索性研究。首先,为了对一个模型在开放域的长篇事实性进行基准测试,研究者使用 GPT-4 生成 LongFact,它是一个包含 38 个主题、数千个问题的提示集。然后他们提出使用搜索增强事实评估器(Search-Augmented Factuality Evaluator, SAFE)来将 LLM 智能体用作长篇事实性的自动评估器。对于 SAFE,它利用 LLM 将长篇响应分解为一组单独的事实,并使用多步推理过程来评估每个事实的准确性。这里多步推理过程包括将搜索查询发送到 Google 搜索并确定搜索结果是否支持某个事实 。此外,研究者提出将 F1 分数(F1@K)扩展为长篇事实性的聚合指标。他们平衡了响应中支持的事实的百分比(精度)和所提供事实相对于代表用户首选响应长度的超参数的百分比(召回率)。实证结果表明,LLM 智能体可以实现超越人类的评级性能。在一组约 16k 个单独的事实上,SAFE 在 72% 的情况下与人类注释者一致,并且在 100 个分歧案例的随机子集上,SAFE 的赢率为 76%。同时,SAFE 的成本比人类注释者便宜 20 倍以上。
Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩
近日,由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星,在 Twitter 更是「火出圈」,吸引了大量博主二创,浏览量总量达到 300K。目前 Champ 已经开源推理代码与权重,用户可以直接从 Github 上下载使用。官方 Hugging Face的 Demo 已经上线,封装的 Champ-ComfyUI 也正在同步推进中。GitHub 主页显示团队将会在近期开源训练代码及数据集,感兴趣的小伙伴可以持续关注项目动态。
https://mp.weixin.qq.com/s/CTYiqcwzhTFG_USSHhl8pQ
基础模型、长文本、数据库、应用落地……一篇文章读懂今天大模型行业的关键问题丨2024 GDC
3 月 23 日-24 日,聚焦全球开发者精英,由上海市人工智能行业协会(SAIA)主办的 2024 全球开发者先锋大会(2024 GDC)在上海举办。这场大会是中国大模型公司展示其最新科研成果和技术创新的重要舞台,来自国内大模型领域最前沿的创业者和技术专家,分享了他们的行业认知,讨论了基础大模型、长文本、数据,以及应用落地等行业关键问题。
消息称数据标注独角兽 Scale Al 正进行新一轮融资谈判,估值接近 130 亿美元
据 The lnformation 报道,知情人士透露,数据标注初创公司 Scale Al的早期投资者风险投资公司 Accel 正在就领投其新一轮融资进行谈判,这将使该初创公司的估值提高近 80%,达到约 130 亿美元。其中一位知情人士表示,为人工智能模型标注图像或文本的 Scale Al正在洽谈本轮融资数亿美元。此前,媒体曾报道 Scale Al2023年的年化收入达到 7.5 亿美元,为前一年的3倍。
https://www.theinformation.com/articles/scale-ai-nears-13-billion-valuation-in-accel-led-round?rc=k0l1du
论文
通过更稀疏的专家选择提升稀疏模型效率
稀疏模型,包括稀疏的专家混合(MoE)模型,已经成为扩展Transformer模型的有效方法。然而,它们通常由于大量参数在计算中多余地通过将值乘以零或低激活值而导致计算效率低下。为了解决这个问题,我们提出了一种新颖的MoE,旨在提高稀疏MoE模型的效能和效率。XMoE利用小专家和基于阈值的路由器,使token能够选择性地仅涉及必要的参数。我们在语言建模和机器翻译任务上进行了大量实验,结果表明 XMoE 能够提高模型性能,同时减少MoE层的计算负载超过50%,而不影响性能。此外,我们展示了 XMoE的多功能性,将其应用于密集模型,实现在推断过程中的稀疏计算。我们提供了全面的分析,并将我们的代码提供在https://anonymous.4open.science/r/XMoE。
http://arxiv.org/abs/2403.18926v1
顶级排行榜排名 = 顶级编码能力,总是这样吗?EvoEval:持续演化的编码基准
LLM已成为代码生成任务的首选,训练、开发和使用LLM特别用于代码生成的增长呈指数级增长。为了评估LLM在代码上的能力,学术界和行业从业者依赖流行的手工编制基准。然而,先前的基准只包含了数量和种类都非常有限的一小部分问题。另外,由于流行程度和年限的原因,许多基准存在数据泄漏的风险,在网上可以轻易找到示例解决方案,因此可能存在于训练数据中。这些限制不可避免地引出了我们的疑问:现有基准的排行榜表现可靠且全面到足以衡量LLM的程序综合能力吗?为了解决这个问题,我们引入了EvoEval——一个程序综合基准套件,通过将现有基准进化为不同的目标领域,全面评估LLM编码能力。我们对51个LLM进行的研究表明,与在像HumanEval这样的标准基准上获得的高性能相比,使用EvoEval时性能显著下降(平均下降39.4%)。此外,性能下降可以在19.6%到47.7%之间,导致LLM之间排名发生剧烈的变化,并显示了现有基准的潜在过拟合。此外,我们展示了各种见解,包括指令微调的模型在遇到重写或微妙变化时的脆弱性以及学习问题组合和分解的重要性。EvoEval不仅提供了全面的基准,还可以用于进化任意问题,以跟上LLM对代码的不断发展和变化之势。我们已经在https://github.com/evo-eval/evoeval上开源了我们的基准、工具和完整的LLM生成。
http://arxiv.org/abs/2403.19114v1
在LLM预训练中通过贝叶斯优化实现检查点合并
大语言模型(LLMs)如GPT-4和Gemini的快速扩散凸显了它们在培训过程中对资源的强烈需求,由于巨大的计算和环境成本,这带来了重大挑战。为了缓解这个问题,我们提出了在预训练LLM中进行检查点合并的方法。该方法利用具有共享训练轨迹的LLM检查点,并根植于通过贝叶斯优化对最佳合并权重进行广泛的搜索空间探索。通过各种实验,我们证明了:(1)我们提出的方法表现出增强预训练的能力,类似于在最小成本的情况下获得实质性好处的机会;(2)尽管我们提出的方法需要一定的保留数据集,但仍然展示了在不同领域中具有稳健泛化能力的关键方面,这是预训练中的一个重要方面。
http://arxiv.org/abs/2403.19390v1
解释Transformer语言模型事实召回的关键机制
本文深入探讨了基于Transformer的语言模型在事实回忆任务中所使用的机制。在零zero-shot场景中,根据类似于“法国的首都是”这样的提示,特定任务的注意头从上下文中提取主题实体,如“法国”,并将其传递给后续的MLP以回忆所需答案,如“巴黎”。我们介绍了一种新的分析方法,旨在将MLP的输出分解为人类可以理解的组件。通过这种方法,我们量化了在这些特定任务头后跟随的MLP层的功能。在残余流中,它要么擦除,要么放大来自各个头的信息。此外,它生成一个组件,将残余流重新定向到预期答案的方向。这些零-shot机制也在少-shot场景中使用。另外,我们观察到模型最终层中普遍存在的抑制正确预测的抗过度自信机制。通过利用我们的解释来改善事实回忆性能,我们减轻了这种抑制。我们的解释已在各种语言模型上进行了评估,从GPT-2系列到13亿OPT,并覆盖了不同领域事实知识的任务。
http://arxiv.org/abs/2403.19521v1
EgoThink: 评估视觉-语言模型的第一人称思维能力
最近,视觉语言模型(VLMs)在传统的下游任务中表现出了令人鼓舞的成果。评估研究不断涌现,其中大部分关注第三人称视角,只有少数涉及第一人称视角的特定任务。然而,对于VLMs从第一人称视角“思考”的能力,这对于推动自主智能体和机器人至关重要,却鲜有研究。为填补这一研究空白,我们引入了EgoThink,一个涵盖六个核心能力和十二个详细维度的新颖视觉问答基准。该基准是使用选定的自我中心视频片段构建的,手动注释的问题-答案对包含第一人称信息。为了全面评估VLMs,我们在EgoThink上评估了十八种流行的VLMs。此外,由于答案的开放式格式,我们使用GPT-4作为自动评分器来计算单个答案的评分。实验结果表明,尽管GPT-4V在许多维度上领先,但所有评估的VLMs仍具有相当大的改进潜力在第一人称视角任务中。同时,在EgoThink上可训练参数数量的扩大对模型性能有最显著的影响。总之,EgoThink为现有的VLMs评估基准增添了一个宝贵的资源,为未来在具身人工智能和机器人领域的研究提供了不可或缺的资源。
http://arxiv.org/abs/2311.15596v2
检索是帮助还是伤害?深入探讨检索增强对语言模型效能的影响
虽然大型语言模型(LLMs)展示了出色的性能,但在查询超出其预训练记忆范围的信息时,它们会遇到提供准确响应的挑战。虽然通过与相关外部信息结合可以缓解这些问题,但未考虑检索的必要性可能会对整体性能产生不利影响。以前的研究主要集中在研究实体如何影响语言模型中的检索模型和知识召回,而其他方面相对未被探索。在这项工作中,我们的目标是通过探索实体和关系的组合效果,提供更详细、以事实为中心的分析。为了促进这一点,我们构建了一个名为WiTQA(Wikipedia三元问题答案)的新问答(QA)数据集。这个数据集包含各种热门水平的实体和关系的问题,每个问题都附带一段支持性文字。我们对各种LLM和检索器进行了广泛的实验,发现从事实为中心的热门观点来看,检索并不始终能提升LLM的性能。验证了早期的发现,我们观察到较大的LLM在回忆热门事实方面表现出色。然而,与检索器相比,它们明显在罕见的实体-关系对方面遇到困难。有趣的是,它们可以有效地保留较不常见实体的热门关系。通过一个根据问题中实体和关系的频率有选择性地使用检索和回忆的自适应检索系统,我们展示了我们更精细的度量和洞见的功效。
http://arxiv.org/abs/2402.13492v3
正弦激活的低秩矩阵用于参数高效学习
低秩分解已成为增强神经网络架构中参数效率的重要工具,在机器学习的不同应用中备受关注。这些技术显著降低了参数数量,在紧凑性和性能之间取得了平衡。然而,常见挑战在于参数效率和模型准确性之间的折衷,减少参数通常导致准确性不如完整秩的情况。在这项工作中,我们提出了一个新颖的理论框架,在低秩分解过程中集成了正弦函数。这种方法不仅保留了低秩方法的参数效率特性,还提高了分解的秩,从而增强了模型的准确性。我们的方法在现有低秩模型中表现出可调适的增强效果,成功应用于Vision Transformers (ViT)、大语言模型 (LLMs)、神经辐射场 (NeRF) 和 3D形状建模中。这证明了我们提出的技术具有广泛潜力和高效性。
http://arxiv.org/abs/2403.19243v1
用基于策略的奖励学习微调语言模型
强化学习从人类反馈中涌现出来作为一种有效的方法,可以使大型语言模型(LLMs)与人类偏好对齐。强化学习通常包括三个步骤,即收集人类偏好、学习奖励和策略优化,通常是按顺序执行的。然而,由于策略优化不断改变LLMs的数据分布,固定的奖励模型可能会受到不准确的离线影响。在本文中,我们提出了基于策略的奖励学习(RLP),这是一个无监督的框架,通过使用策略样本来完善奖励模型,以保持其在分布上的准确性。我们引入了一个无监督的多视图学习方法来学习策略样本的稳健表示。同时,还开发了一种合成偏好生成方法,用于模拟具有策略输出的高质量偏好数据。在三个基准数据集上进行的大量实验表明,RLP始终优于最先进的方法。我们的代码可以在url{https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/rlp}找到。
http://arxiv.org/abs/2403.19279v1
产品
Grok-1.5 发布
Talkie 是一个 AI 角色互动创作平台,用户可以在其中使用先进的视觉和音频
Grok-1.5 版本在长文本的理解和高级推理上有所进步。Grok-1.5 最显著的改进之一是它在编码和数学相关任务中的性能。在测试中,Grok-1.5 在数学基准测试中取得了 50.6% 的分数,在 GSM8K 基准测试中取得了 90% 的分数,这两个数学基准涵盖了广泛的小学到高中竞赛问题。此外,它在 HumanEval 基准测试中得分为 74.1%,该基准测试评估代码生成和解决问题的能力。
https://x.ai/blog/grok-1.5
Delfiny AI
Delfiny AI 是一个数字营销咨询平台,旨在为用户提供个性化的数字营销建议和见解。他们的目标是通过 AI 驱动的数字营销助手帮助用户优化数字广告工作。
https://delfiny.ai/
Sendspark Dynamic Videos
Sendspark 让用户可以创建个性化的用于营销的视频内容,与潜在客户和持续的销售沟通。此外,Sendspark 还提供了一系列功能,包括 AI 个性化视频介绍、在动态背景上展示自己的录制、通过 CSV 导入联系人、在电子邮件平台中嵌入视频等。
https://www.sendspark.com/video-platform/ai-intros
H uggingFace&Github
Octree-GS
最近的研究表明,与基于 NeRF 的神经场景表示相比,3D 高斯飞溅(3D-GS)显示出了更好的渲染保真度和效率。然而,3D-GS 在处理具有复杂细节的大型场景时会遇到渲染瓶颈,因为视锥体中放置了过多的高斯基元。为了解决这一限制,研究人员引入了一种名为modelname的模型,它采用了细节层次分解的 LOD 结构,从一组多分辨率锚点中动态选择适当的级别,通过自适应 LOD 调整来确保一致的渲染性能,同时保持高保真渲染结果。
https://city-super.github.io/octree-gs/
DBRX
DBRX 是一个基于 Transformer 的仅解码器大型语言模型 (LLM),它使用 next-token 预测进行训练。它使用细粒度的专家混合 (MoE) 架构,总参数为 132B,其中 36B 参数在任何输入上都处于活动状态。它是在 12T 文本和代码数据标记上预先训练的。与 Mixtral-8x7B 和 Grok-1 等其他开放式 MoE 模型相比,DBRX 是细粒度的,这意味着它使用更多的小型专家。 h ttps:/ /huggingface.co/databricks/dbrx-instruct
投融资
Hume AI宣布筹集了5000万美元的资金用于新产品EVI
我们很高兴地宣布,我们筹集了5000万美元的资金,用于推出我们的新旗舰产品——一个可以集成到任何应用程序中的同理心语音界面(EVI)。
https://x.com/hume_ai/status/1773024409986466205?s=20
智谱 AI 参投“清程极智”首轮融资,其入股企业已超 10 家
清程极智科技有限公司,成立于2023年12月,由清华大学计算机系博士团队创立,专注于AI基础设施(AI Infra)技术的研发与创新。该公司旨在构建高效AI系统软件,支撑大模型行业发展,赋能国产算力。拥有全栈研发团队,技术涵盖并行系统、AI编译器等关键领域,特别强调国产智能算力芯片的性能优化和代码可移植性,以降低AI技术落地门槛,推动行业进步。
https://www.myzaker.com/article/6603d9f38e9f09659d6f7ff8
为机器人提供“通用大脑”,「X Square」连续完成数千万元天使轮与天使+轮融资
X Square,一家专注于“通用具身大模型”研发的初创企业,近期完成了数千万元人民币的天使轮与天使+轮融资,由联想之星和九合创投领投。成立于2023年12月的X Square旨在为机器人提供一个通用的“大脑-小脑”系统,以实现从感知到动作的端到端能力。公司的研发重点是解决机器人在感知环境、操作物体等本能能力上的AI挑战,旨在推动具身智能领域的发展。X Square的研究重点在于软硬一体化以及大模型在机器人操作中的应用,期望通过自研的通用模型平台,让机器人能完成复杂而精细的物理操作。此外,公司的目标不仅是技术领域的创新,也致力于将具身智能应用于商业化,预计在3-5年内实现初步商业化落地。
晶音智能宣布获秭方资本战略投资
福州晶音智能科技有限公司宣布成功获得秭方资本900万元的战略投资。这一合作标志着双方在智能科技领域的共同探索和无限可能。晶音智能凭借其在AI智能科技领域的创新力量和技术优势,受到了秭方资本的高度认可。此次战略投资不仅为晶音智能提供了发展的坚实保障,也为其带来了更多市场的发展机会,助力公司成为行业的标杆,推动智能科技更好地服务于人类生活。
Celestial AI 完成1.75亿美元C轮融资
Celestial AI成功获得1.75亿美元的C轮融资,该轮融资由美国创新技术基金(USIT)领投,同时吸引了包括AMD Ventures、Koch Disruptive Technologies在内的多家新老投资者参与。此次融资将加速Celestial AI的光子织布技术平台商业化进程,这是一种创新的光学互联技术,用于解决当前高级AI模型由于I/O带宽和内存容量限制而面临的挑战。光子织布技术以其前所未有的性能和效率,正在成为加速计算领域光互联的标准,为下一代数据中心和生成式AI应用的需求提供解决方案。通过这项技术,Celestial AI不仅推动了AI技术的发展,也为实现可扩展、可持续且盈利的新商业模式奠定了基础。
公司官网:https://www.celestial.ai/
https://www.celestial.ai/blog/celestial-ai-closes-175-million-series-c-funding-round-led-by-us-innovative-technology-fund
MyShell完成1100万美元Pre-Series A融资
MyShell,一家去中心化AI消费层公司,宣布在由Dragonfly领投的Pre-Series A轮融资中筹集到1100万美元。本轮融资还得到了Delphi Ventures、Bankless Ventures、Maven11 Capital等高调投资者的参与。MyShell致力于通过开源模型和代理平台,赋能AI创作者社区,目前已拥有超过100万注册用户和50000名创作者。公司计划利用这笔新资金进一步开发其开源基础模型,加强对AI创作者的支持,以及促进开源社区的发展。
https://cryptoslate.com/press-releases/myshell-raises-11-million-for-its-decentralized-ai-consumer-layer/
学习
为什么我们应该做online RLHF/DPO?
文章探讨了在线偏好学习(online RLHF/DPO)的重要性与技术细节,强调在线数据加入RLHF中的好处。通过定义偏好学习、数据收集方式及其与标准训练任务的差异,文章展示了Bradley-Terry模型下奖励函数优化的框架,并详细讨论了线上与线下、策略内与策略外学习的区别。重点在于,通过线上学习,可以在训练过程中让人为标注偏好信号,与仅依赖给定数据集的线下学习相比,线上学习有助于提高模型性能。文章还提出了“批量混合训练”方法,结合线上线下数据,以及探讨了在线探索策略设计的重要性,指出有效的探索策略对于优化模型性能至关重要。
https://zhuanlan.zhihu.com/p/688806682
LLM推理入门指南②:深入解析KV缓存
文章深入讨论了在LLM推理过程中应对计算成本问题的一种常用优化方式——KV缓存。作者指出,大型语言模型(LLM)推理面临的主要挑战之一是,注意力层计算成本随序列长度的增加而呈二次方扩展。幸运的是,通过缓存适当的结果(即键值对),可以在某种程度上将这种计算需求从二次方扩展优化为线性扩展。KV缓存机制通过在生成过程中计算出的键(K)和值(V)张量存储于GPU内存中,减少了对过去词元键和值张量的重新计算需求,实现了内存换取计算的折衷方案。文章还讨论了KV缓存可能带来的挑战以及应对这些挑战的常见策略。
聊聊 MoE 技术和算法总结
文章深入探讨了混合专家模型(Mixture-of-Experts, MoE)的最新技术进展和应用。其中,重点介绍了MegaBlocks技术,这是一种在单GPU上高效训练含有多个专家的MoE模型的方法,通过专家容量和优化场景的概念来提高训练效率和模型性能。此外,文章还提到了ScatterMoE实现,该实现通过减少内存占用和提升吞吐量来优化MoE模型的训练和推理速度。Branch-Train-MiX (BTX)方法也被提及,它通过分支、训练和混合专家的方式来实现从领域专家到MoE模型的有效转换,以此来平衡精度和效率。这些技术展示了MoE模型在处理大规模训练任务时的巨大潜力和挑战。
https://zhuanlan.zhihu.com/p/689096518
大模型训练之FP8-LLM别让你的H卡白买了:H800的正确打开方式
文章探讨了如何通过使用FP8数据类型和NVIDIA的TransformerEngine库最大化H100 GPU的性能。H100 GPU引入的FP8数据类型,在矩阵乘积累加(MMA)计算速率上相比A100 GPU的16位浮点运算速率快4倍,主要贡献于FP8的使用和Sparsity特性。文章强调了FP8数据类型的重要性,特别是对于大型语言模型(LLM)的训练,能够显著减少内存需求和通信成本,从而提高训练效率。此外,讨论了混合精度训练和动态Loss Scaling的概念,展示了FP8如何在减少计算资源消耗的同时保持或提高模型训练的效率和准确性。
https://zhuanlan.zhihu.com/p/664972481
Amazon Bedrock Claude3 结合多智能体 Multi-agent 助力 Altrubook.AI 定义消费者 AI 新范式
Altrubook AI 是一款创新的智能消费决策机器人,它利用 Amazon Bedrock Claude3 的多模态对话能力与领域决策模型无缝集成,为用户提供沉浸式的购物体验和个性化购物决策服务。通过高级人工智能算法,Altrubook AI 能在虚拟购物场景中智能捕捉消费需求,提供个性化商品推荐,并规划出性价比最优的购物方案。该技术整合了 Multi-agent 系统和大语言模型,实现了对信息的高效处理和决策建议的生成,为消费者带来全新的购物体验。
https://aws.amazon.com/cn/blogs/china/amazon-bedrock-claude3-combines-multi-agent-to-help-altrubook-ai-define-a-new-paradigm-of-consumer-ai/
大模型日报 16
大模型日报 · 目录
上一篇 大模型日报(3月28日)
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/03/16530.html