我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
Reka AI 刘琦:多模态大模型与 Agent 的训练与实践 | 奇绩潜空间活动报名
【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。
第五季第四期潜空间邀请到的嘉宾是 Reka AI 联合创始人,香港大学计算机科学系助理教授 ——刘琦,他分享的主题是《多模态大模型与智能 Agent 的训练与实践:打造自动化驱动的智能化未来》。

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!

资讯
穹彻×上交大联合提出机器人操作野外学习框架
机器人操控已成为机器人学习领域的重要研究方向,特别是在深度学习推动下,任务从传统的抓取和放置扩展到更加精细的操作。大部分研究聚焦于机器人的末端执行器,但少有探索机器人其他部位的使用,例如手臂其他部分来完成抓取、支撑等任务,这通常要求精确的关节级控制来调节机器人姿势。穹彻智能与上海交通大学卢策吾团队开发了AirExo,这是一种低成本、高适应性且便携的双臂外骨骼系统,支持双臂机器人在遥操作下执行任务,并能在野外环境中收集演示数据。AirExo为机器人学习提供了一个新框架,结合遥操作和野外数据,能够提升机器人任务的通用性和鲁棒性,尤其在扰动条件下显著提高任务成功率。
AirExo设计注重低成本、便携性、适应性及耐用性,能够与多种机械臂(如Flexiv Rizon、UR5、Franka Panda、Kuka IIWA等)兼容。每只外骨骼包含7自由度(DoF)的关节,精确的角度编码器和3D打印部件确保高精度与稳定性。AirExo的校准过程简单高效,通过同步调整外骨骼和机械臂的关节,确保精准的遥操作控制。
该系统采用了一个两阶段的野外学习框架:第一阶段是预训练,使用大量的遥操作和外骨骼数据进行高层次策略学习;第二阶段是微调,通过遥操作数据进一步优化策略以提升实际执行能力。通过这一框架,团队发现,使用3分钟的遥操作演示和AirExo收集的多样化野外数据,可以训练出性能不逊色于使用20分钟遥操作演示的策略,甚至在某些情况下表现更优。
在具体的任务中,如收集球任务和遮帘架抓取任务,实验结果表明,使用AirExo框架的策略不仅能提升任务成功率,还能在遥操作演示数据较少时显著提高策略的样本效率和鲁棒性。例如,ACT方法结合野外数据后,在只有10次遥操作演示的情况下,性能与50次演示相当,展现了强大的泛化能力。
实验还表明,野外学习框架显著增强了策略在不同环境扰动下的鲁棒性,使得机器人能够在复杂和动态的环境中执行任务。未来,团队计划进一步研究如何减少人类演示数据与机器人遥操作数据之间的差距,以进一步降低学习成本,推动机器人的野外自主学习能力。
可灵AI深度解析:开源数据集 Koala-36M、Scaling Law以及通用世界模型
可灵是全球首个公开体验的真实影像级视频生成大模型,已在短短半年内完成了数十次迭代升级,持续引领视频生成领域的发展。可灵团队公开了数项研究成果,揭示了视频生成模型成功的核心因素:数据基建的精炼与大模型训练的规模优化。团队分享了其视频生成领域的开源数据集 Koala-36M,并引入了语言模型中的Scaling Law,系统分析了模型规模、超参数选择与训练性能之间的关系,为视频生成技术的高效训练和优化提供了理论支持。
Koala-36M是目前最高质量的大规模视频生成数据集,包含3600万个视频片段,总时长达13.75秒,分辨率为720p,文本描述平均为202词。与SOTA数据集Panda-70M相比,Koala-36M在视频切片、文本标注和数据筛选方面进行了精细化改进,显著提升了文本与视频内容的一致性。通过创新的Color-Struct SVM算法,Koala-36M在视频切割时能更精确地识别转场,尤其是在渐变转场的处理上比传统方法表现更佳。此外,Koala-36M采用结构化文本标注体系,生成更详细的描述,提升了文本和视频内容的一致性。
针对低质量数据的筛选,Koala-36M提出了Training Suitability Assessment Network(TSA),通过多模态输入视频评价网络,消除了传统筛选方法中低质量视频漏检和高质量视频误删的问题。通过这种创新的筛选流程,Koala-36M能更准确地为模型提供高质量训练数据。此外,Koala-36M还在扩散模型训练中引入了运动分数、美学分数等数据标签,通过自适应层归一化(AdaLN)提高了模型对异质数据的感知能力,从而加速了模型收敛,提高了生成质量。
在大模型训练的优化方面,研究提出了针对视频生成领域的Scaling Law。与传统方法不同,该研究通过精确建模批量大小和学习率之间的关系,提出了最优超参数选择的指导原则。实验表明,相较于传统Scaling Law方法,新的推导方法能够在同等计算预算下,减少40.1%的推理成本,同时保持较高性能。该成果为视频生成领域的优化提供了新的方向。
在未来技术探索中,清华大学与可灵联合提出了Omni World Model(Owl-1)——一个通过状态、观测、动作的闭环推理演化实现时序一致的长视频生成的全新视频生成范式。该模型通过建模世界状态和动态变化,实现了更高质量的长视频生成,并为未来视频生成技术的发展指明了方向。
中国信通院发布《高质量大模型基础设施研究报告(2024年)》
-
计算资源分配粗放,高效异构算力融合调度成为新需求。一是异构资源统一纳管。算力资源利旧带来不同架构AI芯片纳管需求,大模型在科学、工业仿真等领域应用加深带来CPU和AI芯片纳管需求。华为、移动、电信等厂商积极推动异构智算管理平台研发,通过统一编程接口、智能调度等技术,实现对多类异构算力资源协同管理,提高算力利用率。二是智能化调度实现算力经济最大化。通过自动化监控、预测、自适应调度等技术优化资源利用,采用“AI+历史数据+实时数据”分析,实现算力需求精准预测,动态调度。
-
海量数据处理低效,高性能大模型存储技术成为新关键。一是长记忆存储助力推理降本增效。通过高性能存储的大范围全局共享和持久化KV Cache能力,可实现高性价比推理加速,经企业实践验证,推理吞吐提速可超50%,推理成本显著下降。二是加速卡直通存储实现数据直达。通过加速卡和存储设备的数据一跳直达,可以消除CPU处理瓶颈,极大提升数据从存储到加速卡的数据传输效率,经企业实践验证,可实现TB/s级带宽和亿级IOPS,每个机架单元的存储性能可达50GB/s以上,大幅提升集群可用度。三是数据编织技术提高全流程效率。通过数据编织技术,实现全局数据可视可管,跨域统一视图。
-
并行计算规模攀升,高通量大规模网络技术成为新方案。一是负载均衡技术助力解决“算等网”问题。经企业实践验证,逐流方案通过定制化的xCCL配合网络路径优化,在保证网络高可靠性的同时,网络链路利用率可达90%以上。逐包方案通过自适应路由等技术,可实现整网吞吐达到90%以上。二是参数面、存储面/样本面、业务面、带外管理面网络互联有效提升大模型训练效率。在训前、训中、训后,多网络面互联解决训练过程涉及的数据、模型、模型参数、检查点等的写入和导出问题。
-
模型参数急剧增长,高效能大模型开发技术成为新解法。一是训练加速技术涌现支撑大模型高效构建。计算资源优化方法通过混合精度计算等方式,减少计算和存储需求,有效提升模型效率。计算优化策略通过算子融合、梯度积累技术等实现模型执行效率提升。二是推理技术提升模型推理效率。模型压缩通过低比特量化、稀疏化等方式实现模型训中、训后的低损与高效压缩。推理引擎技术进一步提升推理性能和兼容性。
-
基础设施故障率高,高容错大模型运维技术成为新手段。一是训前健康检查保障作业零隐患运行。通过全栈隐患排查,降低作业启动失败频率,避免计算资源损失。二是训中故障可预测、可恢复。通过智能监控告警技术,进行端侧监控、拥塞分析等辅助故障定位,基于既有运维知识库,实现异常预测、RCA根因定位,有效提升集群稳定运行时长。

推特
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
代理配方:一个可以学习代理/工作流配方的网站,提供可轻松复制粘贴到您自己的AI应用程序中的代码示例
这是一个可以学习代理/工作流配方的网站,提供可轻松复制粘贴到您自己的AI应用程序中的代码示例。
我打算将其打造为开发者学习代理及其实现方法的首选资源——更多内容即将推出。

https://x.com/nutlope/status/1879587920744788172
Jim Fan分享HOVER 基础模型配方:模拟不再是事后考虑,人类动作捕捉数据集等
让我们逆向分析这个演示。你需要三样东西:(1)将模拟作为核心要素的强大硬件和电机设计;(2)一个人类动作捕捉(“mocap”)数据集,例如用于电影和游戏角色的数据;(3)在GPU加速模拟中进行大规模并行强化学习(RL)训练。
去年十月,我们的团队训练了一个名为 HOVER 的基础模型,拥有150万参数,专注于这种敏捷的电机控制。大致来说,它遵循以下配方(详细内容请见帖子):
-
模拟不再是事后考虑。现在,它必须成为硬件设计过程的一部分。如果你的机器人无法很好地进行模拟,那强化学习也就无从谈起。硬件-模拟协同设计是一个非常有趣的新兴主题,只有在当前计算能力的支持下才变得有意义。
-
人类动作捕捉数据集,用于生成自然的行走和奔跑姿态。这是使用类人机器人的一大优势——你可以模仿大量为电影或大型游戏捕捉的人类动作数据。这些数据至少有三种用途:
• 初始化:预训练神经网络模仿人类动作,然后在打开物理引擎的情况下微调到机器人形态。
• 表征学习:将人类姿态视为一种“运动先验”,用于约束机器人行为的范围。
-
将上述内容输入到 Isaac Sim,加入大量随机化,用 PPO 算法训练,扔上一堆 GPU,然后边看 Netflix 边等待损失收敛。
如果你忍不住想评论“这是 CGI”,我可以帮你省几次敲键盘的工夫——现在许多学术实验室已经实际拥有了 G1 机器人。

https://x.com/DrJimFan/status/1879922307923411081
产品
Clemta 一体化平台 集成式管理
Clemta可用于开展和管理业务,涵盖从公司成立到自动化登记和税务申报等所有业务环节,将所需的一切都集成在一个地方,简化流程,为用户节省金钱和精力。
-
自动连接与数据录入:可连接银行和财务应用程序,使交易自动流入,告别手动数据录入,节省时间和精力。
-
自动化交易分类与规则创建:利用自动化交易分类功能,并能创建自己的规则,帮助用户更好地掌控财务状况,确保财务数据的准确性和条理性。
-
实时财务报告:用户可随时获取实时财务报告,包括利润表、资产负债表、现金流量表等,方便及时了解企业财务状况,为决策提供数据支持。
-
发票定制与便捷创建:能够自定义带有企业标志和颜色的发票,点击即可创建一次性或定期发票,还可在发票中嵌入付款链接,加快收款速度,提升收款效率。
-
轻松文件管理:点击即可在 Clemta 仪表盘上提交联邦、州和销售税,并且所有文件都可存储且易于访问,方便用户随时查阅过去的申报或公司文档,提高文件管理的便捷性和安全性。
https://clemta.com/
SaaS Blueprint 你的风险投资评估搭子
通过一系列独立但相互关联的模块,让用户了解投资者(VC,风险投资)会如何看待自己的业务,查看与顶尖四分位同行相比的关键 B2B SaaS 指标的基准数据,并理解筹集风险投资资金的过程。
-
推出背景:作为新风险投资基金 Defiant 推出的一部分,分享 B2B SaaS Blueprint。
-
目的:通过与众多创始人交流,了解到他们很难评估自己的 B2B SaaS 业务是否处于适合获取风险投资资金的良好状态,因此创建了 Blueprint,旨在提供风险投资家(VC)对企业的视角,帮助企业识别需要加强的领域。
-
使用方法:用户只需输入一些关键指标,平台会结合从用户网站获取的洞察来增强这些信息。
-
报告内容:最终用户会收到 Blueprint Report,该报告展示企业与其他企业相比的基准情况,并突出在接触投资者之前需要改进的可操作的优先事项。
https://defiant.vc/blueprint?
投融资
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
人形机器人开年最大单笔融资官宣
德国机器人公司Neura Robotics于1月15日晚宣布完成了1.2亿欧元(约9.3亿元人民币)的融资,成为2025年人形机器人领域的最大单笔融资。这轮融资由意大利阿涅利家族旗下的Lingotto Investment Management领投,沃尔沃汽车科技基金、BlueCrest资本管理公司和InterAlpen Partners等跟投。融资资金将用于提升机器人感知和信息处理能力。Neura Robotics成立于2019年,专注于开发认知机器人和人形机器人,已在工业自动化、医疗保健和物流等领域取得显著成果。公司CEO大卫·雷格表示,快速自动化搬运重物、重复性任务和服务岗位的机器人有望节省劳动力成本并缓解劳动力短缺问题,这使得投资者对公司极具兴趣。
Neura Robotics过去一年员工数量翻倍至300人,并拥有近10亿欧元(约78亿元人民币)的订单,客户包括川崎重工业和欧姆龙等知名企业。公司的核心产品是全球首款认知协作机器人MAiRA,具备多传感器融合和智能交互能力,能够实时感知周围环境并与人类协作。此外,Neura Robotics还开发了多传感自主移动平台MAV、轻量级机器人助手LARA、智能个人助理机器人MiPA和认知通用人形机器人4NE-1。
4NE-1是公司的一款人形机器人,能够完成从洗衣机取衣物、熨烫衣服到切菜做三明治等任务。尽管人形机器人市场仍处于初期阶段,4NE-1目前仍处于试验阶段,但高盛的报告预计到2035年该市场规模将达到380亿美元。Neura Robotics希望4NE-1能在多个行业中得到广泛应用,包括汽车、航空、医疗保健、物流等。此次融资为Neura Robotics进一步扩展市场和提升技术能力提供了资金支持。
— END —
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/33107.html