我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
资讯
DIffusion As a Model Of eNvironment Dreams
环境生成模型(Generative Models of Environments),又称世界模型(World Model), 是通用智能体规划和推理环境中的核心技术,与传统强化学习相比具备更高的采样效率。然而,这类模型多通过操作离散潜在变量来模拟环境动态,这种压缩的表征可能会忽略强化学习中的关键视觉细节。
DIAMOND模型概述
日内瓦大学和爱丁堡大学的研究团队提出了DIAMOND(DIffusion As a Model Of eNvironment Dreams),通过引入扩散模型解决上述问题并优化智能体性能:
a. 核心技术:
扩散模型:借助逐步逆转加噪过程,生成高质量视觉内容。
U-Net架构:适用于图像数据,捕捉复杂视觉模式,结合自适应组归一化稳定处理不同噪声水平。
使用历史数据训练条件生成模型,预测下一个状态(部分可观察马尔可夫决策过程,POMDP)。
两阶段管道:低分辨率动态预测降低成本,高分辨率上采样提升视觉生成质量。
Atari 100k基准测试:DIAMOND达成1.46的平均人类归一化得分(HNS),在11个游戏中超过人类水平,成为完全基于世界模型训练的最佳智能体。
扩展案例:在CS环境中训练智能体,使用87小时的玩家数据,通过381M参数的扩散模型,成功实现高质量动态预测。
增强视觉细节:扩散模型的高 保真视觉生成能力提升智能体在细节捕捉上的表现。
即插即用:可作为环境的模块化替代方案,便于深入研究世界模型与智能体行为。
高效性:在RTX 4090上12天完成训练,并可在RTX 3090上以10 FPS实时运行。
尽管DIAMOND在多个任务中表现卓越,但在部分场景下,模拟精度不足,模型的扩展与优化仍需进一步研究。
有鹿将发布LPLM2.4
有鹿即将发布LPLM 2.4版本,在国际人工智能顶级竞赛中获得8项冠军,击败NVIDIA、Google、Meta、三星等国际科技巨头。全系产品将在2025年Q1通过OTA升级至该版本,推动机器人技术实现革命性突破。
LPLM模型采用端到端大模型的技术路线,不仅突破了传统GPS定位算法和SLAM算法的局限,还能够解决定位导航、紧急避障等问题,同时实现动态博弈式的三维空间路径规划与控制。这一模型让机器人具备理解物理世界和语言世界关系的能力,迈入通用智能时代。
LPLM模型创新设计了“三维纹理占用网格序列即语义”的tokenizer技术,并结合超级标签对齐,构建了一种全新的物理世界描述语言体系,即Large Physics Language Model,简称LPLM。通过多模态切割方法,模型在分割任务中的鲁棒性和完整性得到了全面提升。
在国际竞赛中,LPLM模型分别在以下领域获得冠军:nuScenes lidar semantic segmentation、ScanNetV2 3D Object Detection、Road Estimation Evaluation、KITTI Instance Segmentation、KITTI Depth Completion、KITTI Road Estimation、Argoverse 2 Scene Flow Challenge以及Talk2Car Referring Expression Comprehension。
实际应用中,LPLM模型在室外低密度点云场景(如锥桶)中,结合图像信息可精准回溯目标;在室内长尾类别识别(如垃圾桶)方面,利用预训练的2D视觉encoder提高识别能力。机器人在窄道通行和道路分割等任务中表现出色,提升了导航精度与效率。
LPLM模型的核心是对物理世界的描述语言,其出色的prompt适配能力和3D grounding特性,将持续推动机器人技术发展,为行业带来新一轮技术革新。
MassiveFold出于AlphaFold而胜于AlphaFold3
蛋白质结构预测正迎来变革期,AlphaFold 已使单链及复杂组装的建模成为可能,但其高计算需求和耗时限制了实际应用。法国里尔大学与瑞典林雪平大学的研究人员提出了 MassiveFold,这一优化版 AlphaFold 大幅缩短预测时间,从数月减至数小时。
MassiveFold 通过并行化设计和改进采样方法,在保持预测精度的同时显著降低计算成本,适用于从单机到大型 GPU 集群的多种硬件环境。其整合了 AFsample 的增强采样和 ColabFold 的附加功能,支持 AlphaFold 所有版本的神经网络模型。研究表明,MassiveFold 在 CASP15 靶标测试中性能优越,为大多数目标生成了高质量模型,有时甚至优于 AlphaFold3。
并行处理:计算任务分布于 CPU 和 GPU,包括比对计算、批量推断和后处理,有效提高硬件利用率。
高效采样:调整采样参数、回收和 dropout 增强预测多样性与置信度,适应复杂蛋白质组装。
模块化设计:支持多种结构预测引擎,未来可集成 AlphaFold3。
易用性:通过简单命令行和 JSON 参数配置,快速部署和运行。
AAAI 2025 第二届AI4Research研讨会
AI4Research 2024 将于 2025 年 3 月 4 日在美国费城举行,是 AAAI 2025 工作坊的一部分。本次会议聚焦 AI 辅助科学研究全生命周期,旨在探索人工智能如何从文献综述、假设生成到实验规划、结果分析等各阶段增强科研能力,尤其关注“科学领域中的沉睡美女现象”(Sleeping Beauties)及其解释性和可用性问题。
将 AI 集成至现有平台(如 PubMed、Google Scholar)。
引入数据集赛道以支持 AI4Research 新任务研究。
接受针对科学假设生成、自动化评审等不同阶段的评估方法研究。
https://sites.google.com/view/ai4research2024/home
推特
00 Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
LLaVA-o1:首个具备自发性和系统性推理能力的视觉语言模型
🚀 推出 LLaVA-o1:首个具备自发性和系统性推理能力的视觉语言模型,类似于 GPT-o1!🔍
🎯 我们的 11B 模型超越了 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct!
🔑 核心在于基于结构化数据的训练以及一种新颖的推理时间扩展方法——阶段级束搜索。✨
📄 论文地址:https://arxiv.org/abs/2411.10440/
🔗 GitHub:https://github.com/PKU-YuanGroup/LLaVA-o1
https://x.com/Kevin_GuoweiXu/status/1858338565463421244
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
因此,我开发了一款工具,可以使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画。
现在你也可以创建自己的数学动画了!点击下面的链接试试看吧。
https://x.com/archiexzzz/status/1858122612825538885
Boltz-1:开源可商用模型,能够在生物分子结构预测中达到 AlphaFold3 的准确水平
很高兴宣布推出 Boltz-1,这是首个开源且商用的模型,能够在生物分子结构预测中达到 AlphaFold3 的准确水平!这是与 @jeremyWohlwend、@pas_saro 以及 MIT 和 Genesis Therapeutics 的优秀团队合作完成的一项令人兴奋的成果。详情请看下方线程!
https://x.com/GabriCorso/status/1858180097016250815
Cj分享使用感受:v0,Cursor,Bolt.new,Replit Agent,Gptengineer,Windsurf IDE
我每天用 AI 编码 7-8 个小时,一周 6 天。
仅仅两周前,它还像个半成品。现在它逐渐成型,变得不错了。
非常适合制作着陆页和小型 SaaS 项目(4-5页)。
在 Replit 引入了 React + Vite 后,现在可以构建带有酷炫 UI 的应用程序。
我在 v0 中设计的一个现代化着陆页,通过 Replit 一次就实现了。
Bolt 的发展速度非常快,v0 改进了上下文缓存功能,而 GPTengineer 还在一条消息里实现单个编辑。
我感觉现在用这套技术栈,5-7天就能完成任何 Web 应用的开发。
https://x.com/cj_zZZz/status/1858172065423257612
Habryka分享:OpenAI 邮件档案(来自 Musk 诉 Altman 案件)
关于 Elon 和 OpenAI 的文章非常有趣,以下是全文。
有趣的花絮:Elon 通常会在几分钟内用一个单词或一句话回复,即使是长邮件,比如审查微软交易时,他发现了一条不好的条款,并促使他们修复了它。
OpenAI 邮件档案(来自 Musk 诉 Altman 案件)
在 Elon Musk 和 Sam Altman 的诉讼过程中,大量来自 Elon、Sam Altman、Ilya Sutskever 和 Greg Brockman 的电子邮件被公开。
我发现阅读这些邮件非常有价值,但尚未找到一个简单易读的在线来源来汇总所有内容。因此,我创建了一个。
我最初使用了一些 AI 工具生成内容,然后逐一仔细检查了每封邮件以发现任何差异。我很确定捕捉到了所有的不同,但可能仍有一些非常小的排版错误遗漏。
https://x.com/amasad/status/1857882040898826444
产品
Momen
Momen 是一个全栈无代码网页应用构建平台,集成了AI代理开发框架,帮助用户快速构建和部署MVP,减少上市时间,并支持无缝迭代和扩展。该平台特别适合非技术背景的创始人,使他们能够轻松将创意推向市场。
AI Game Master
AI Game Master 是一款沉浸式文字角色扮演手机游戏,灵感来自D&D(龙与地下城),由AI驱动。玩家可以创建独特的角色,探索惊险的任务,招募忠诚的伙伴,并通过AI生成的图像和回合制战斗体验史诗般的冒险。这款游戏不仅仅是另一个文字RPG,它是一个充满无限可能的奇幻世界。
https://www.aigamemaster.app/
投融资
银河通用完成12亿元融资,缔造具身大模型赛道新纪录
银河通用自2023年5月成立以来,迅速成为具身智能领域的焦点。公司刚成立便完成种子轮融资,随后在今年6月宣布完成总计7亿元人民币的天使轮融资,而近日再次完成5亿元人民币战略轮融资,总融资额达12亿元人民币,成为具身大模型赛道迄今为止最大融资项目。
投资方阵容豪华,包括经纬创投、蓝驰创投、IDG资本、源码资本、美团战投、深创投、上汽恒旭投资、北京人工智能产业基金、香港投资公司等多家顶级机构与产业基金。银河通用更吸引了北京、上海、深圳、香港等四地政府背景基金的支持,显示其在全国范围内的战略价值。
银河通用由北大90后教授王鹤创立,聚焦于具身多模态大模型的研发与通用机器人产品的量产化。其首款产品Galbot G1已实现对复杂物体抓取和多场景泛化操作能力,成功应用于药房无人值守和工业生产线等场景,并与美团、奔驰、极氪等头部企业达成合作。
公司官网:https://www.galbot.com/
https://news.pedaily.cn/202411/543070.shtml
戴盟机器人完成两轮亿元天使+轮融资,聚焦光学触觉传感器研发
戴盟机器人近期完成两轮亿元级天使+轮融资,投资方包括金鼎资本、国中资本、联想创投及头部银行系投资机构。本轮融资将用于研发光学触觉传感器、触觉灵巧手及多模态感知操作模型等产品,助推技术迭代与商业化落地。
戴盟机器人由香港科技大学机器人研究院创始院长王煜教授及段江哗博士联合创立。公司专注于研发毫米级厚度的视触觉传感器,该技术显著提升了机器人对三维力觉、动觉及滑觉等触觉信息的感知能力。其光学触觉传感器的触觉分辨率达到像素级别,远超传统阵列式触觉传感器,支持更复杂的精细操作。
此外,戴盟机器人通过整合触觉、视觉与动作数据,建立视觉-触觉-动作-语言模型,大幅减少训练数据需求,同时提升机器人操作任务的效率和成功率。
目前,戴盟机器人的光学触觉传感器已实现小批量量产,适用于人形机器人、手术机器人、智能座舱及柔性材料加工装配等场景。其数据收集外骨骼也投入实际使用,为操作模型优化提供高效数据采集方案。
金鼎资本表示,戴盟机器人的技术创新和场景协同能力为具身智能领域创造了持续价值。
国中资本强调触觉技术在提升机器人智能化水平和应用场景中的重要性。
联想创投指出触觉传感器技术已具备商业化基础,并将为戴盟机器人提供全方位赋能,助力产业化落地。
https://36kr.com/p/2990834468563720
3D AI公司「SEELE」完成千万美元Pre-A轮融资,专注游戏内容生成
SEELE AI宣布完成千万美元Pre-A轮融资,本轮由美图投资和富坤创投领投,老股东Webtime Information S&T持续加码支持。SEELE成立于2022年底,是一家致力于多模态大模型和3D游戏AIGC技术的创新公司。
公司专注于通过自研多模态大模型,为3D游戏生成提供高效的内容平台,极大简化了游戏开发流程。用户仅需通过文字描述,系统即可生成精美的3D场景、互动动画和引人入胜的游戏玩法。这一技术突破使SEELE成为全球少有的快速实现大模型训练和应用落地的团队。
SEELE的产品在短短半年内已经积累了近百万海外用户,受到专业游戏从业者和MMD/VRChat创作者的青睐,展现出强大的自然增长能力和用户粘性。
SEELE由前网易云音乐创始人王诗沐领导,核心团队来自腾讯、字节跳动和阿里巴巴等顶级企业,成员包括多位大模型和图形学领域的专家。融资后,公司计划进一步升级游戏多模态大模型技术,打造全新的游戏AIGC引擎,吸纳更多全球顶尖人才,突破互动娱乐的边界,为游戏玩家创造更丰富的体验。
公司官网:https://www.seeles.ai/discover
https://news.pedaily.cn/202411/543068.shtml
Robust AI推出Carter Pro机器人,强化人机协作
Robust AI公司发布了一款名为Carter Pro的机器人,专为与人类协同工作而设计。这款机器人能感知人类施加的力并调整自身行动,支持手动移动操作,是人机交互的典范。这一设计让Carter Pro在安全性和灵活性方面取得了显著突破,适合在复杂的仓储和物流环境中部署。
Robust AI与全球物流巨头DHL达成合作,DHL成为首批大客户之一。然而,为避免客户单一化带来的风险,公司正积极拓展更广泛的客户基础。此外,Robust AI强调其策略是在稳健发展的同时,不局限于单一领域,以确保未来的市场韧性。
Carter Pro使用摄像头替代传统的激光雷达(Lidar)作为感知设备,这种设计更适合仓库环境并降低成本。该机器人还配备了模块化设计,能轻松融入现有仓储布局。目前,多个合作伙伴已测试早期版本,生产型产品刚刚下线。
CTO Rodney Brooks曾创立Rethink Robotics,专注人机交互技术,使Carter Pro在协作理念上表现出色。公司希望通过优化人机协作安全性和提升效率,进一步拓展仓储、物流等领域的市场。
公司官网:https://www.robust.ai/
https://techcrunch.com/2024/11/17/robust-ais-carter-pro-robot-is-designed-to-work-with-and-be-moved-by-humans/
挪威初创公司Factiverse利用AI对抗虚假信息
随着2024年美国总统大选的结束,虚假信息在线上呈惊人速度传播,引发公众对候选人以及公共健康、气候变化、移民等话题的认知偏差。挪威初创公司Factiverse正致力于用AI技术应对此类挑战。
Factiverse成立于2020年,目前处于早期阶段,已完成约145万美元的种子轮融资。其商业模式主要面向企业,提供文本、视频和音频的实时事实核查工具,以节省研究时间并降低声誉或法律风险。此外,Factiverse计划在2025年启动下一轮融资,并寻求更多投资者支持其全球扩张。
Factiverse由Maria Amelie和Vinay Setty共同创立,后者是斯塔万格大学的机器学习副教授。其AI模型基于高质量、可信赖的数据进行训练,而非通用生成式AI依赖的“垃圾数据”。目前,该模型支持114种语言,准确率达80%,并且在可信来源的推荐和事实验证方面表现优于GPT-4和Mistral 7-b等先进模型。
Factiverse的工具已应用于美国总统辩论的实时事实核查,并与挪威主要银行及多家媒体建立合作关系。未来,该公司希望进一步提升模型性能,并通过新客户和投资者扩展其市场规模。
公司官网:https://www.factiverse.ai/
https://techcrunch.com/2024/11/17/norwegian-startup-factiverse-wants-to-fight-disinformation-with-ai/
— END —
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/11/21704.html