大模型日报(12月6日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月6日 学术篇)

信号

01

从自动驾驶到具身智能漫谈

在自动驾驶技术不断进化的过程中,技术栈和目标逐渐趋向具身智能。从传统的感知-定位-决策架构,到逐步发展的端到端深度学习架构,自动驾驶逐步呈现出更强的泛化能力和适应性。最初的传统自动驾驶架构主要包括感知、定位、预测、决策、规划和控制模块,这种模块化设计便于各个模块独立开发和调试,但也限制了系统的灵活性和泛化能力。随着技术发展,模块之间逐渐通过深度学习实现紧密集成,形成了端到端的自动驾驶架构。
在这一过程中,自动驾驶架构经历了多个阶段的演进。第一阶段通过多传感器融合技术(如BEV)使感知模块实现了端到端集成,第二阶段则将决策规划模块与预测模块整合,开始使用深度学习来处理复杂的场景。第三阶段进一步提升了感知模块的输出方式,从人类可理解的抽象转向特征向量,整个系统通过梯度传导实现跨模块训练。到了第四阶段,所有功能模块被统一为一个深度学习模型,完全通过强化学习或模仿学习实现决策和规划。
随着任务复杂度的增加,自动驾驶逐渐从基于规则的驱动模式转向数据驱动,甚至结合知识驱动来解决更多的动态场景和复杂情况。知识驱动方法在数据驱动的基础上加入了常识、经验和逻辑推理,逐步推动自动驾驶技术朝着广义人工智能的方向发展。此外,具身智能的概念也日渐成为自动驾驶的一部分。具身智能强调机器人通过感知和执行任务获得经验,并根据经验调整决策过程。这一过程不仅依赖数据,还要结合深度学习和知识推理进行优化。
自动驾驶与具身智能的结合,不仅出现在车辆领域,也逐渐渗透到机器人技术中。例如,机器人使用强化学习和模仿学习技术,通过与环境的互动逐步学习新技能。这与自动驾驶的演变相似,机器人的学习过程也经历了从传统控制到强化学习、再到模仿学习、离线与在线强化学习相结合的过程。同时,Sim2Real技术也开始被广泛应用,即通过在仿真环境中训练模型,然后迁移到真实世界中进行验证和优化。
大模型日报(12月6日 学术篇)
https://mp.weixin.qq.com/s/XZiIDmWif0mMjrgLnILhIg
02

Code Retrieval Eval:推动程序检索系统发展的新基准

文章介绍了Code Retrieval Eval(CRE),一个用于评估程序检索系统的新基准。CRE通过提供一组高质量、复杂的程序理解任务,旨在推动程序理解和检索领域的技术进步。CRE的核心是设计了一种评估标准,专门考察模型在从大型代码库中检索相关代码片段时的表现,特别是在程序代码检索和理解任务中的准确性与效率。
CRE基准集包括了各种编程语言的代码示例,涵盖了从简单的函数调用到复杂的多模块应用程序等多样化场景。评估的任务是通过用户输入的查询语句来检索相关代码片段,要求系统能够正确理解查询的意图并返回最相关的代码。系统不仅要理解代码的语法结构,还要能够处理复杂的语义关系,准确识别代码中的逻辑意图。
技术方面,文章强调了如何通过深度学习方法,特别是基于Transformer的模型,如BERT和GPT,在程序检索中的应用。CRE不仅支持传统的基于关键词的检索方法,还采用了基于语义理解的检索技术,这对于提高检索精度和系统的泛化能力至关重要。此外,评估框架还对检索系统的多样性进行了考虑,提供了更全面的评估指标。
大模型日报(12月6日 学术篇)
https://blog.voyageai.com/2024/12/04/code-retrieval-eval/
03

系统代理:重新定义企业运作的力量

在企业日益复杂的环境中,越来越多的公司开始采用代理系统来增强其运营效率。通过“系统代理”,我们可以看到一个不仅仅是工具和技术的整合,而是一个深度嵌入组织架构的战略方法。这种方法通过无缝的技术和人员协作,提供了一种新的思维方式,支持企业从传统的层级结构转向灵活且自适应的工作模式。
代理系统不仅仅局限于自动化任务,还扩展到了如何通过智能决策和行动优化整个系统的运行。核心技术之一是人工智能(AI),尤其是深度学习和强化学习,它们使得代理能够在不断变化的环境中自主学习,并且基于收集到的数据和反馈不断改进决策和策略。此外,系统代理通过模拟复杂的决策过程,可以处理多种变量并在不同情境下作出最优选择,从而实现更高的业务效率和资源利用率。
一个关键的技术点在于“自我管理”,代理不再需要人工干预来进行任务的执行。通过实时数据反馈和持续的优化,代理能够独立地完成任务,如调配资源、管理团队、处理客户需求等。在这个过程中,机器学习算法不仅仅帮助代理进行基本的操作,还通过学习历史数据不断改进预测能力,识别潜在的优化空间,甚至能够进行前瞻性决策。
此外,代理系统支持协同工作,这意味着它们能够在多个层级之间协调,甚至跨部门合作,从而推动更复杂项目的进展。这种系统的一个优势是它具有高度的扩展性,能够适应从小型创业公司到大型跨国企业的不同需求。代理可以被定制化,使其适应各种行业,推动创新和增长。
大模型日报(12月6日 学术篇)
https://foundationcapital.com/system-of-agents/
04

3D Diffusion Policy 阅读笔记

论文《3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations》提出了一种新的机器人技能学习方法,称为3D Diffusion Policy(DP3)。该方法结合了3D视觉表示和扩散策略,旨在通过少量演示学习鲁棒且可泛化的技能。现有的视觉模仿学习方法通常依赖大量的演示数据,且收集过程缓慢且容易失败。尽管在线学习能够缓解数据量的问题,但实际应用中仍面临安全性、自动重置和高成本等挑战。DP3通过创新性地将3D视觉表示与扩散策略结合,解决了这些问题。
在感知部分,DP3使用单视图相机进行策略学习,而不是在机器人周围安装多个相机,这使得该方法在实际应用中更加高效和实用。为了表示3D场景,DP3采用稀疏点云表示,而不是使用传统的RGB-D、深度图或体素等表示方法。通过将84×84的深度图像转换为点云,并去除颜色通道以提升外观泛化能力,DP3能够获得更有效的3D环境表示。在点云处理方面,DP3利用最远点采样(FPS)方法对点云进行下采样,选择保留512或1024个点,这些点在实际任务中能够有效覆盖3D空间。随后,DP3通过轻量级的MLP网络(DP3 Encoder)将下采样后的点云编码为64维的紧凑3D表示,该编码器在视觉运动控制任务中表现优异,超过了许多复杂的预训练点云编码器。
在决策部分,DP3利用条件扩散模型生成机器人动作,输入条件包括3D视觉特征和机器人姿态。扩散模型从高斯噪声开始,通过多个迭代逐步去噪,最终生成有效的动作序列。训练目标是从数据集中随机采样一个数据点,并对其进行扩散过程,通过预测噪声并去除噪声来完成训练。该方法的优势在于其能够在少量演示的情况下高效学习复杂的任务,同时具备较强的泛化能力。
在仿真实验中,DP3在72个任务中的平均成功率达74.4%,相比基于图像的Diffusion Policy提升了24.2%。在多个任务中,DP3的成功率超过了90%,并且其训练收敛速度明显快于传统方法,通常在500个训练轮次内就能达到收敛。消融实验表明,点云表示在3D表示中表现最佳,优于RGB-D、深度图和体素等其他表示方法;DP3 Encoder在点云编码器中表现突出,优于其他复杂模型和预训练模型。实验还表明,DP3采用的设计选择,如去除颜色通道、使用LayerNorm层、样本预测方法等,进一步提高了训练的稳定性和任务的泛化能力。
在真实世界实验中,DP3在两个不同的机器人平台上进行了评估,包括Allegro手和夹具。尽管仅提供40个演示,DP3在所有任务中都表现出了较高的成功率。相较于基于图像和深度的扩散策略,DP3在空间泛化、外观泛化、实例泛化和视图泛化等方面表现得更为优秀。在实际任务中,DP3能够有效适应不同位置、外观和实例的物体,而基于图像的策略则在多个任务中失败。此外,DP3在安全性方面也表现出色,相比于基于图像和深度的策略,DP3在真实任务中很少违反安全规定,表明其在硬件部署和实际应用中更加可靠。
大模型日报(12月6日 学术篇)
https://zhuanlan.zhihu.com/p/10876710674
05

专为RL_Locomotion而生的全开源双足人形机器人AlexBotmini

Alexbot_mini 是一款拟全开源的双足机器人,专注于步态算法研究和轻松部署步态以降低 Reality Gap,具备高效的控制和硬件设计。该机器人采用人体比例设计,整体长度为700mm的下半身和500mm的上半身,总重预计小于30kg。电机使用 FFTAI 一体化关节模组,包括 FSA80-29E、FSA60-43E 和 FSA45-30E,以满足机器人各部位的扭矩要求,特别是髋部和膝关节,这些电机配备双级行星减速器,以提供更高的扭矩密度。
在机械设计中,机器人的腿部包括12个自由度,通过并联结构设计降低惯性,并使用双电机组合以减少电机的负担。并联结构虽然能够放大力矩输出,但可能引入机械背隙,从而影响精度,因此需要精确的运动学计算来确保控制系统的高效性。机械结构采用模块化快拆设计,便于拆卸和组装。
硬件架构分为信号层和功率层,信号层通过交换机连接上位机和多个电机,以实现快速数据交换,功率层则保障电机与上位机的电气隔离,防止电流反冲损坏设备。电机采用48V供电,上位机则使用20V供电,保证稳定运行。电机采用Ethernet协议进行控制,相比传统的CAN总线,Ethernet协议能够支持更高的带宽、低延迟和多电机级联,适合复杂的机器人控制系统。
在软件方面,Alexbot_mini的步态规划使用了基于HumanoidGym的模型,并通过Simtosim迁移降低现实与仿真之间的Gap。步态设计通过调节机器人的奖励函数,使得模型能够在复杂的环境中逐渐学习最优步态。Simtosim迁移从IsaacGym到Mujoco的过渡有效减少了现实环境的误差,提升了步态的泛化能力。
大模型日报(12月6日 学术篇)

https://zhuanlan.zhihu.com/p/10910743025



HuggingFace&Github

01

Forge 一款动态开源规则引擎

Forge是一款动态开源规则引擎,专为《万智牌:聚会》爱好者量身定制。Forge 由一群充满热情的程序员开发,让玩家能够通过灵活、引人入胜的平台探索 MTG 的丰富世界。
  • 🌐 跨平台支持:可在Windows、Mac、Linux和Android上播放。
  • 🔧 可扩展架构:Forge采用Java构建,鼓励开发人员通过添加功能和卡片来做出贡献。
  • 🎮 多样化的游戏玩法:进入单人游戏模式或在线挑战对手!
大模型日报(12月6日 学术篇)
https://github.com/Card-Forge/forge
02

Datagro(下一代基于 Web 的数据分析平台)

Datagrok™(下一代基于 Web 的数据分析平台) 的API、工具和软件包的公共存储库。该平台具有很强的可扩展性,几乎任何东西都可以作为软件包实现:

  • 支持化学信息学等科学领域

  • 应用,如临床病例 或肽

  • OpenAPI Web 服务连接器

  • 可视化效果,例如Leaflet

  • 导入和预览文件,例如 SQLite、 PDF或 CIF

  • 使用 R、Python 或 Julia 实现的科学方法

  • 文件元数据提取器,例如Tika

  • 与内置预测模型 (例如TensorFlow.js)配合使用的自定义预测模型

  • 平台增强功能,例如PowerPack 或UsageAnalysis

  • … 以及此处记录的其他类型的扩展。

这些开源软件包可供任何人免费使用,但对于公共环境, 存在一些与服务器计算能力相关的限制。 在其场所部署 Datagrok 的组织也可以访问公共软件包。除此之外,企业通常会建立自己的私有存储库,其中包含专有扩展。

Datagrok™(下一代基于 Web 的数据分析平台) 的API、工具和软件包的公共存储库。该平台具有很强的可扩展性,几乎任何东西都可以作为软件包实现:
  • 支持化学信息学等科学领域
  • 应用,如临床病例 或肽
  • OpenAPI Web 服务连接器
  • 可视化效果,例如Leaflet
  • 导入和预览文件,例如 SQLite、 PDF或 CIF
  • 使用 R、Python 或 Julia 实现的科学方法
  • 文件元数据提取器,例如Tika
  • 与内置预测模型 (例如TensorFlow.js)配合使用的自定义预测模型
  • 平台增强功能,例如PowerPack 或UsageAnalysis
  • … 以及此处记录的其他类型的扩展。
这些开源软件包可供任何人免费使用,但对于公共环境, 存在一些与服务器计算能力相关的限制。 在其场所部署 Datagrok 的组织也可以访问公共软件包。除此之外,企业通常会建立自己的私有存储库,其中包含专有扩展。
https://github.com/datagrok-ai/public


推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/24368.html

Like (0)
Previous 2024-12-05 21:07
Next 2024-12-06 23:56

相关推荐

  • 吴恩达,对 Agentic Workflow 持续兴奋

    继吴恩达在今年 4 月红杉 AI 峰会演讲过去之后,Agent > GPT5?吴恩达最新演讲:四种 Agent 设计范式(通俗易懂版)。 又做了两三次演讲/访谈,其中无不例外…

    2024-09-05
    408
  • MolarData| AI领域资讯速递

    MOLAR NEWS 2020年第49期   MolarData人工智能每周见闻分享,每周一更新。 借助机器学习,他们发现了阴谋论是如何传播的 发表在 PLOS ONE 上的研究 …

    2021-01-26
    184
  • 新年新愿,启航2025。

    整数智能信息技术(杭州)有限责任公司,起源自浙江大学计算机创新技术研究院,致力于成为AI行业的数据合伙人。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术…

    2024-12-31
    68
  • 整数有约 | 揭秘首个大规模桌面物体数据集TO_Scene的诞生

    关于首个大规模桌面物体数据集TO_Scene,从产品设计逻辑到团队背景,你想知道的一切都在这里,或许能帮助你正在进行的算法训练,提高模型3D语义分割和对象检测任务质量。 做人工智能…

    2022-04-20
    274
  • MiniMax 悄咪咪上线的这款 AI 产品,好用到爆炸!

    君不见,估值超 25 亿美元一举荣升独角兽。 君不见,闭门研发万亿 MoE 模型 abab 6.5. 君不见,低调上线海螺 AI 功能齐全好用到爆。 这说的是谁呢?说的就是来自国内…

    2024-04-30
    235
  • 阿里数赛 AI 挑战赛,我们是全球第二。

    特工宇宙团队在阿里巴巴全球数学竞赛 AI 挑战赛中,拿到了2/563的名次。 而这场硅基与数学之战的前三名,均是一群 00 后。‍‍‍ 本文共分为三个部分:心路历程、活动预告、实现…

    2024-06-17
    1.4K
  • 清明将至,越来越多的人选择购买“数字生命”。

    之前热映的《流浪地球2》影片中,刘德华饰演图恒宇是个“数字生命派”,企图通过超强的算力,将自己早逝的女儿“复活”。 想象一下,现代人拥有了全新的“赛博招魂术”,大家不再信仰神婆,而…

    2024-03-31
    345
  • 乌卡时代,如何抓住工业机器人下一个增量|此话当真 EP05

    ‍ 用声音,听见真格。 「此话当真」是一档泛商业类播客,我们希望搭建这样一个分享和交流的平台,让每一个对商业、科技、创投充满好奇的人都能在这里有所收获。每期播客将会由不同的真格投资…

    2023-06-30
    129
  • 战绩可查!15 岁少年的 AI 项目被收购!

    本文经 zmh 本人授权,由 Spark Lab & 特工宇宙联合发布 在某数学天才少女跌落神坛之后的数小时后,我们迎来了真正的英雄少年。 从打字高手,到自学软件开发,再到…

    2024-11-04
    84
  • Super黄分析产品的心法!

    特别感谢自己开始写作的决定,给我带来了很多的机会, 第一篇有一定阅读量的文章是研究当时刷遍朋友圈的运营技能地图: 那会裂变分销其实已经是挺成熟的套路了,不过这次运营研究社的产品设计…

    2023-05-16
    136