大模型日报(9月2日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(9月2日 资讯篇)

资讯

01

Command R-35B与Command R-104B

Cohere For AI发布了两款重要的AI模型更新:C4AI Command R+ 08-2024和C4AI Command R 08-2024。这些最新的语言模型分别拥有1040亿和350亿参数,展示了在文本生成、推理和工具使用方面的强大能力,尤其适用于多语言环境。
C4AI Command R+ 08-2024技术亮点
  • 参数规模:拥有1040亿参数,是目前最强大的语言模型之一。
  • 检索增强生成(RAG):具备复杂的多步任务自动化能力,包括摘要生成、问答和跨上下文推理。
  • 多语言支持:训练涵盖23种语言,评估了其中10种语言,适合全球应用。
  • 架构优化:采用优化的自回归Transformer架构,结合分组查询注意力(GQA),提高了推理速度。
  • 上下文长度:支持128K的上下文长度,能够在长对话或文档中保持连贯性和相关性。
工具使用与基础生成C4AI Command R+ 08-2024能够执行基于文档片段的生成任务,确保生成内容的准确性和可信性。此外,它还擅长会话工具使用,能够在多步任务中灵活调用多个工具,提升复杂任务的完成效果。
C4AI Command R 08-2024C4AI Command R 08-2024是更紧凑的版本,拥有350亿参数。尽管规模较小,但仍然保持了高效的生成、推理和多语言支持能力,适用于资源受限的环境。
大模型日报(9月2日 资讯篇)https://www.marktechpost.com/2024/09/01/updated-versions-of-command-r-35b-and-command-r-104b-released-two-powerful-language-models-with-104b-and-35b-parameters-for-multilingual-ai/
02

用最直观的动画,讲解LLM如何存储事实

本文基于3Blue1Brown发布的视频,深入探讨了大型语言模型(LLM)如何存储和处理知识,特别是在多层感知器(MLP)中的实现细节。视频通过生动的动画展示了LLM的工作机制,尤其是如何处理如“Michael Jordan plays basketball”这样的事实。
首先,视频简要介绍了Transformer模型的基本工作流程,包括注意力机制和MLP的角色。在模型中,每个token都被编码为高维向量,这些向量通过注意力机制和MLP进行处理。注意力机制负责将上下文信息结合,而MLP则承担了大量的事实存储任务。
对于“Michael Jordan plays basketball”这一示例,视频详细解释了MLP如何在高维空间中存储这一事实。具体来说,MLP通过一系列矩阵运算,将代表“Michael Jordan”和“Basketball”的向量进行编码和组合,最终通过线性投射和激活函数(如ReLU)等步骤,生成与输入向量关联的输出向量。
视频进一步说明了GPT-3中的参数计算方法。GPT-3的嵌入空间维度为12288,这意味着其参数矩阵非常庞大,整个模型的参数量达到1750亿,其中三分之二与MLP相关。通过这些参数,模型能够有效地存储和处理大量的事实。
最后,视频还讨论了“叠加”(Superposition)的概念,即单个神经元可能不代表单一特征,而是通过复杂的叠加来存储多种信息,这也是LLM难以解释和具有高度扩展性的原因之一。
大模型日报(9月2日 资讯篇)https://mp.weixin.qq.com/s/PSMfQLBBQZyG2GwgzatqvA
03
大模型应用新战场:揭秘终端侧AI竞争关键

  1. 量化:为提高AI模型在手机等终端设备上的推理效率,高通深入研究了量化技术,特别是低位数整型精度(如INT4)的应用。这种方法在不影响模型准确性的前提下,显著提升了推理效率和能效。例如,INT4模型与INT8相比,性能提升90%,能效提升60%。

  2. 编译技术:高通通过编译器技术优化AI模型的部署,确保其在硬件上以最高效能运行。其AI引擎Direct框架基于Hexagon NPU进行优化,显著提高了计算性能并减少内存溢出。

  3. 硬件加速:Hexagon NPU作为高通AI引擎的核心,显著提升了AI处理能力。例如,在第三代骁龙8移动平台上,Hexagon NPU的性能较前代提高98%,同时功耗降低40%。

  4. 新算法:高通开发了LR-QAT算法,结合低秩重参数化和量化技术,在降低内存使用的同时保持了模型性能,适用于大语言模型的高效推理。此外,矢量量化(VQ)技术通过考虑参数的联合分布,实现更高效的压缩和更少的信息丢失。

未来展望:高通还在探索生成式AI模型的终端侧优化,如优化Stable Diffusion模型的效率,使其更适合低功耗设备,并开发适用于视频生成的高效架构。这些技术进展不仅推动了AI模型从云端向终端的迁移,也加速了AI技术在各类智能设备中的普及和应用。

大模型日报(9月2日 资讯篇)https://mp.weixin.qq.com/s/Ub0by14RBQQHnxtOnbXupg

04

端测AI芯片,群雄争霸

数据流处理器专为神经网络推理和训练计算设计。例如,ADI 的 MAX78000 是一种低功耗混合信号 CNN 加速器,集成了多个并行处理器,支持多种权重精度。苹果的 A16 和 M2 处理器则在性能和功耗之间取得了平衡,适用于高性能边缘设备。Blaze 的 Pathfinder P1600 El Cano AI 处理器整合了 16 个图形流处理器,峰值性能为 16 TOPS,适合高性能计算任务。
神经形态处理器模仿生物神经元的工作方式,以极低的功耗实现 AI 计算。例如,BrainChip 的 Akida 系列使用脉冲神经网络 (SNN) 实现高效推理,功耗仅为 2W。IBM 的 TrueNorth 处理器则以 65mW 的功耗实现了 46GSOPS/W 的性能,适合实时跟踪和检测任务。
PIM 处理器在内存中执行计算,减少数据传输延迟和能耗。例如,三星的 HBM-PIM 系统将 AI 处理功能集成到高带宽内存中,能效比传统系统高 2.5 倍。Mythic 的 M1076 是一款新型模拟矩阵处理器,使用 76 个计算块实现 25 TOPS 的性能,功耗仅为 3W。
总体而言,边缘 AI 处理器的性能和能效在不断提升,不同类型的处理器在精度、功耗和应用场景上各有优势。数据流处理器适合高性能需求,神经形态处理器以低功耗为主,而 PIM 处理器则兼具高效能和低延迟。
原文链接:https://www.mdpi.com/2079-9292/13/15/2988
大模型日报(9月2日 资讯篇)https://mp.weixin.qq.com/s/FxWQQBKf7FBeR_DxvmDReg
05

实现机器人领域的ChatGPT时刻,需要大模型+强化学习丨明星教授Sergey特邀报告

离线强化学习基础:离线强化学习(Offline Reinforcement Learning, ORL)与传统强化学习不同,它从预先收集的大型数据集中学习,而不是通过与环境交互来积累经验。离线强化学习不仅能够模仿数据集中的行为,还可以通过优化这些行为来推断新的解决方案。
结合数据驱动的生成模型和强化学习:数据驱动的AI,如语言模型和扩散模型,能够模仿复杂的数据分布,但缺乏生成超越这些数据的能力。而强化学习则擅长于优化策略,产生涌现行为。通过结合这两者,可以创建既能模仿人类行为,又能通过优化产生创新行为的系统。
机器人基础模型的构建:利用离线强化学习,可以在多个机器人数据集上预训练通用模型,这些模型可以适应不同的机器人和任务。在新的环境中,通过在线强化学习进一步微调预训练模型,使其快速适应新任务。
优化生成模型:通过强化学习优化生成模型,如扩散模型,可以生成更符合特定要求的新颖图像。优化后的模型在应对从未见过的问题时表现得更加创意和灵活,超越了单纯模仿数据的局限。
强化学习在语言模型中的应用:通过离线强化学习,语言模型不仅可以从互联网数据中学到如何与人类交互,还可以通过分析和优化对话数据集,生成更具针对性的响应。这种结合可以让语言模型不仅模仿人类对话,还能优化对话策略,生成更高质量的对话内容。
大模型日报(9月2日 资讯篇)https://mp.weixin.qq.com/s/hTExLgMh_W1KneAs0uIZAw

推特

01

网友分享:深度分割只需要 3 毫秒就能完成,仅有不到 2GB 显存

真不敢相信深度分割只需要 3 毫秒就能完成!而且仅用了不到 2GB 的显存。
大模型日报(9月2日 资讯篇)https://x.com/mrsiipa/status/1829504574832669123
02

简单地在回答前添加“重复问题”这句话,居然能让模型正确回答那些有陷阱的问题

简单地在回答前添加“重复问题”这句话,居然能让模型正确回答那些有陷阱的问题。🤔
可能的解释有:✨
📌 在模型的上下文中重复问题,显著提高了模型检测到潜在“陷阱”的可能性。
📌 有一种假设是,这可能让模型更倾向于完成模式,而不是从聊天指令模式进行回答。
📌 另一个虽不太可能但也有可能的原因是,模型可能会认为用户的问题包含错误(例如,用户本意是问薛定谔的猫而不是死猫)。然而,如果问题出现在助手的上下文中,模型会更信任它的准确性。
📚 相关论文是 EchoPrompt,提出了这种在回答前重新表述原始提示/查询的技巧。
这种方法将 code-davinci-002 在零样本链式思考任务中的性能提高了 5%(数值任务)和 13%(阅读理解任务)。
大模型日报(9月2日 资讯篇)https://x.com/rohanpaul_ai/status/1830230678673223737
03

Kalouche预告:Nimble 正在通过开发首个通用仓储机器人,以取代十几种不同的设备/自动化系统

仓储机器人公司纷纷倒闭,这是显而易见的原因,然而这些公司却不断陷入同样的陷阱,犯下相同的业务和产品错误。
当你只提供复杂仓储操作中一个小部分的解决方案,而这个操作涉及数十种不同的技术解决方案时,你就会迫使客户(或更糟糕的是,集成商)将几十个部分解决方案拼凑在一起,创造出一个完整的产品或解决方案。一个成功的产品需要是一个完整的产品。这在像机器人这样复杂的领域尤为重要,因为这些机器人依赖数百个系统的顺畅协作才能实现整体效果。一个挑拣手臂(如RightHand Robotics)或视觉系统(如Covariant)并不是一个完整的产品。当你需要十几个供应商来创造一个完整的产品时,就会出现利润叠加的问题,导致一个次优的解决方案,因为每个供应商(包括集成商)都需要赚钱,而且这些供应商并不是一起开发他们的产品来优化整体解决方案。
这种方法导致的解决方案非常次优,成本高,操作难度大,集成和维护也非常麻烦。
这就是为什么现有的解决方案仅能渗透到约5%的仓库中。第三方物流(3PL)公司和中端市场品牌没有很好的解决方案。显然,市场迫切需要简化操作,并提供数量级更高的投资回报率。
Nimble 正在通过开发首个通用仓储机器人,以取代十几种不同的设备/自动化系统,正确地解决这个问题。更多信息即将公布。
大模型日报(9月2日 资讯篇)https://x.com/simonkalouche/status/1830325186970718594
04

Copilot自动生成api密钥现象再放送

生活小窍门:如果你没有某个服务的 API 密钥,或者你无法负担使用费用,只需在服务名称后加上 “api_key”,Copilot 就会免费为你提供一个密钥。
大模型日报(9月2日 资讯篇)https://x.com/growing_daniel/status/1830452075148587136
05

Yi Ma教授分享新课程:首次尝试从统一且有原则的角度教授深度网络,核心内容包括压缩和信息增益

我将在本学期开设一门新课程 DATA8014:深度表示学习原理,地点在香港大学的数据科学学院,明天开课。https://datascience.hku.hk/study/research-postgraduate/data8014/ 这是首次尝试从统一且有原则的角度教授深度网络,核心内容包括压缩和信息增益。
大模型日报(9月2日 资讯篇)https://x.com/YiMaTweets/status/1830478781167091861
06

Shawn Wang调侃见到真正AI工程师:不借助任何LLM,只是自己写代码

今天我看到了一位 AI 工程师
没有Cursor。
没有 Claude 3.5 sonnet。
没有 aider。
他就那样坐在那里。
编码时每隔几分钟都不运行一次 LLM。
像个疯子一样。
大模型日报(9月2日 资讯篇)https://x.com/swyx/status/1830335212120854731

产品

01

Fill A Form

Fill A Form 是一款智能自动填表助手,通过使用用户的个人数据、过往输入和知识库来简化表单填写过程。它可以在一键点击的情况下快速填写各种表单,减少用户的重复性任务,提高效率。
大模型日报(9月2日 资讯篇)https://fillaform.ai/
02

TutorEva

TutorEva 是一款 AI 驱动的在线学习助手,提供 24/7 的作业帮助和学习支持,涵盖数学、会计、论文写作等。其主要功能包括高精度问题解决、AI-proof 论文写作、生动的视频讲解以及课本教学等,希望可以帮助学生高效学习并提高学业成绩。
大模型日报(9月2日 资讯篇)https://www.tutoreva.com/

投融资

01

无问芯穹获近 10 亿元累计融资

近日,无问芯穹(Infinigence AI)宣布完成近5亿元A轮融资,使其在成立1年4个月内累计融资总额达到近10亿元。本轮融资的联合领投方包括社保基金中关村自主创新专项基金、启明创投和洪泰基金,跟投方则涵盖了联想创投、小米、软通高科等战略投资者,以及国开科创、上海人工智能产业投资基金等多家国资基金。此前,无问芯穹还获得了百度、智谱、红杉中国等知名机构的投资。
融资资金将主要用于技术人才的吸纳与研发,保持其软硬件协同、多元异构的技术领先地位,并推动产品的商业化发展。无问芯穹通过其自研的推理加速技术FlashDecoding++,提升了在多种计算卡上的硬件利用率,并与AMD签署了战略合作协议,推动商用AI应用的性能提升。此外,无问芯穹还发布了大规模异构分布式混合训练系统HETHUB,在多种芯片组合中实现了行业领先的算力利用率。
无问芯穹致力于打造Infini-AI异构云平台,覆盖从异构算力利用到大模型应用开发的全栈式能力,现已覆盖全国15座城市。平台上的AIStudio和GenStudio分别为机器学习开发者和大模型应用开发者提供全生命周期的工具链服务,吸引了多个行业头部客户。
公司官网:https://cloud.infini-ai.com/platform/ai
大模型日报(9月2日 资讯篇)https://mp.weixin.qq.com/s/a3DWcv4IjLfE_DzUo0S2Tg
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/09/13191.html

Like (0)
Previous 2024-09-02 08:30
Next 2024-09-02 19:23

相关推荐

  • 这个国庆,智谱悄咪咪打起了第二轮价格战

    内容丨特工小鹏 特工大叔 编辑丨特工少女 近一个月来,全面对标 OpenAI 的智谱大小动作不断,GLM-4-Flash 免费,推出极致性价比的 FlashX,旗舰模型升级到 Pl…

    2024-09-30
    311
  • 大模型日报(4月18日 资讯篇)

    欢迎观看大模型日报,进入大模型日报群和空间站(活动录屏复盘聚集地)请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 推特 01 波士顿动力公司最新 Atl…

    2024-04-18
    104
  • 大模型日报(8月15日 资讯篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-15
    188
  • 大模型日报(7月4日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-04
    177
  • 大模型日报(7月10日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-10
    172
  • 大模型日报(7月31日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-31
    221
  • 大模型日报(6月24日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-24
    159
  • 论文分析|高效长文本生成——让模型更高效、更智能!

    Preface 前言 目前大模型公司很多在追求长文本, 对算力需求极大,如何能够现实地处理该问题很重要。特别是随着Transformer模型尺寸和复杂性的增长,它们在训练期间的内存…

    2024-08-05
    408
  • 大模型日报(5月17日 资讯篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-17
    143
  • 大模型日报(7月15日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-15
    193