我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!

叶添:揭秘大语言模型推理机制——超越人类的二级推理
奇绩潜空间活动报名
【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,潜空间定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。
第五季第二期潜空间邀请到的嘉宾是清华大学姚班,卡内基梅隆大学博士生,Physics of LLM 2.1作者,于 Meta 担任 Research Scientist Intern的叶添,在本次活动中叶添将在北京现场与大家面对面交流,他分享的主题是《揭秘大语言模型推理机制——超越人类的二级推理》。

资讯
全新模型RoboVLMs解锁VLA可能性
近年来,视觉语言基础模型(VLMs)在多模态理解和推理方面表现出色,逐渐引领了人工智能的发展。而视觉语言动作模型(VLA)则在此基础上进行拓展,使得模型不仅能够“看”和“说”,还能够执行动作,为机器人领域带来了新的突破。尽管VLAs在多个任务和场景中表现优异,但目前缺乏统一的设计标准。为此,作者提出了一个名为RoboVLMs的模型,通过一系列实验探索和优化,揭示了设计VLAs的关键因素,并在仿真和实际机器人任务中都取得了出色表现。
RoboVLMs模型的设计回答了四个核心问题。首先,实验表明,通过合理设计,VLA能够在熟悉和陌生场景中都表现稳健,且在仿真任务和真实机器人实验中均取得了较好成绩。例如,在果蔬分类任务中,RoboVLMs能够精准识别并完成任务,即使面对新环境和干扰物体。其次,模型的架构设计也至关重要,关键的设计选择包括使用连续动作空间、增加多步历史信息和引入历史信息组织模块,这些设计显著提升了模型的稳定性和泛化能力。通过实验验证,基于KosMos基础模型的架构表现最为出色,尤其在CALVIN环境中展现了强大的泛化能力。
此外,选用适合的基座模型至关重要。作者通过对比八种主流VLM,发现KosMos和Paligemma模型在任务执行精度和泛化能力上遥遥领先,验证了预训练的视觉语言能力对VLA表现的巨大推动作用。最后,关于数据的使用,研究指出,在预训练阶段引入跨本体数据(如Open-X Embodiment数据集)能显著提升模型的鲁棒性和少样本情况下的表现。
未来,RoboVLMs有巨大的发展空间。进一步的优化可以集中在VLM的内部结构、信息融合模块以及训练目标上。此外,挑战更复杂的任务,如长链条的任务(例如“做早餐”),以及提升多模态协作能力,都是未来研究的潜力方向。
大模型“六小虎”,拿下4200万大单
12月27日,上海大模型独角兽公司阶跃星辰成功中标上海某公司智算云服务平台源代码采购项目,投标报价达4199.9万元。该项目要求中标方在服务器和网络部署完成后2周内完成源代码的部署、配置及调试,并满足招标文件中的技术规格要求。此项目从公开招标到中标结果公告仅用了17天,阶跃星辰在此过程中表现突出,成为中标候选人第一名。
阶跃星辰自2023年4月成立以来,已迅速崭露头角。公司由前微软全球副总裁姜大昕博士创办,专注于大模型技术的研发,尤其在自然语言处理领域具有深厚的技术积累。今年12月23日,阶跃星辰宣布完成数亿美元的B轮融资,投资方包括上海国有资本投资有限公司及旗下基金,战略投资人腾讯投资、五源资本和启明创投等。
公司在大模型领域的表现也同样亮眼。从今年3月起,阶跃星辰陆续推出了多款Step系列通用大模型,涵盖千亿参数语言模型、万亿参数MoE语言模型及多模态大模型等,展现了其强大的技术实力。阶跃星辰被业界视为国内“大模型六小虎”之一,与智谱、月之暗面、MiniMax、百川智能、零一万物等公司并肩竞争。
在竞争激烈的市场环境中,阶跃星辰的这一项目中标标志着其技术和市场份额的进一步拓展,也进一步巩固了其在国内大模型领域的领先地位。与此同时,智谱等其他公司也在多个招标项目中取得了中标,如12月连续中标北京智网数科和中国银行等项目,体现了行业内大模型技术的需求持续增长。
智能驾驶:速攀发展曲线,乘用车智驾2025年或迎量变到质变
2024年技术快速迭代,NOA收获性能和渗透率双提升。从年初BEV +Transformer,摆脱高精度地图,实现全国都能开;到年中端到端架构的兴起,减少了模型间信息损耗,提高泛化能力;再到年底引入视觉语言大模型和云端模型,进一步提高对长尾场景的处理能力;由此将L2功能在空间维度延展到接近极限,车位到车位成为新的竞争锚点。并且头部车企开始降低硬件配置,以现配套售价的下探和标配。2025年随着功能完善和硬件降本,我们认为城市NOA渗透率有望提升至11.6%。
L2+功能已基本完备,车企竞争往更高阶智驾演进。随着车位到车位功能的推出,L2级智驾功能实现了全场景可用,后续只需持续优化接管率;我们认为,头部车企为了展示科技领先性,或将竞争的矛头从逐渐成熟的城市NOA指向以L3/L4为代表的自动驾驶,和AI/具身智能等相关领域。
发展城市NOA有助于增厚毛利,并且为高阶自动驾驶演进铺垫。因智驾硬件成本较高,车企通常会进行加价选配。经我们测算,选装的智驾硬件的毛利率远大于原车毛利率,而对于头部智驾车企而言,此类选配2024年前三季度单季几乎贡献超过10%的毛利。我们认为,虽然智驾软件收费处于萌芽期,头部智驾车企通过提高智驾选装率,仍获取了增量回报。同时,受益于技术栈与FSD的相似性,我们认为,车企也有望制定向Robotaxi演进的路标。我们认为,我国智驾解决方案商则受益于当下技术发展,具备较明显的全球竞争优势,利好后续海外拓展销售。
潜空间播客剧透NeurIPS上规模化之辩、盘点2024AI堆栈四大战争:优质数据/GPU贫富/多模态/LLMOps
-
AI 工程师这一职业迅速崛起,其发展速度超出了预期,反映在播客收听率的增长上,也与整个AI行业的蓬勃发展同步。
-
AI 工程师的定义尚不明确,但这反而促进了有益的讨论和领域的不断细化,其边界仍在探索中。
-
AI 工程师的角色是将最新的研究成果转化为生产应用,需要兼顾研究和工程技能。
-
大型语言模型(LLM)的竞争格局变化:OpenAI的市场份额下降,Anthropic和Google Gemini崛起,形成三足鼎立之势。Gemini凭借免费层级策略迅速抢占市场。
-
模型规模的瓶颈与推理范式转变:大型预训练模型的扩展遇到瓶颈,转向关注推理时计算(ITC),计算最优训练和推理成为研究重点。
-
小型模型的崛起:大型实验室开发的小型模型在性能和成本方面具有竞争力,与开源社区开发的小模型形成差异化竞争。
-
多模态模型发展迅速:视觉、语音、文本等多模态模型快速发展,Gemini 2.0等模型在多模态能力上取得突破。图像生成模型(如Sora、Veo2、Pika 2.0)和视频生成模型发展迅速,视频与音频同步成为新的前沿方向。
-
代理(Agent)技术发展:代理技术成为关注焦点,但仍面临诸多挑战,例如环境理解、机构知识提取等。
-
合成数据的重要性提升:合成数据在模型训练和评估中发挥越来越重要的作用,但其有效性仍存在争议。
-
LLM运维(LLMOps)和监管运维(RegOps)发展:LangChain和Llama Index等LLMOps工具增长迅速,表明该领域的需求日益增长。
-
代码解释器和代码生成工具发展:代码解释器和代码生成工具得到改进,并被集成到各种产品中,例如ChatGPT Canvas。
-
记忆功能的改进与挑战:LLM的记忆功能仍在发展中,目前多为显式记忆,缺乏隐式记忆和偏好提取能力。
-
数据质量之战:真实数据与合成数据之间的争议持续存在,合成数据在模型训练中的应用不断扩大。
-
GPU竞争格局:GPU超级富豪继续占据优势,而GPU中产阶级和贫乏阶层面临挑战,但一些GPU贫乏的公司通过云服务或模型包装等方式取得成功。
-
基准测试的演变:新的基准测试不断涌现,反映了AI领域研究方向的变化。
-
AI安全问题日益突出:大型实验室面临安全风险,数据泄露和刺探活动等问题需要重视。
-
AI的商业化和投资:AI领域的融资活动活跃,大型公司和初创公司积极寻求商业化途径。
-
2025年的预测:智能体技术将迎来快速发展,并将在生产环境中得到广泛应用;AI将改变不同职业的技能下限。
推特
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
Vercel CEO分享用v0制作的新型CAPTCHA:通过玩《DOOM》并在噩梦模式下至少击杀 3 个敌人来验证你是人类
我创建了 http://doom-captcha.vercel.app —— 通过玩《DOOM》并在噩梦模式下至少击杀 3 个敌人来验证你是人类 😁
基于 WebAssembly 和 LibSDL,UI 使用 @v0 构建。
https://x.com/lmarena_ai/status/1873695386323566638
吴恩达分享年度热点话题:智能代理崛起, 价格下跌,生成式视频腾飞,小而美等
随着 2024 年接近尾声,今年最后一期《The Batch》总结了年度热点话题:
点击链接查看完整文章:https://deeplearning.ai/the-batch/issue-281/
https://x.com/AndrewYNg/status/1874191082436895002
Raschka分享《2024 年 AI 研究亮点》:个人觉得既有趣又有影响力的研究论文
新年快乐!为迎接新的一年,我终于整理并上传了我的《2024 年 AI 研究亮点》文章草稿。
文章涵盖了多种主题,从专家混合模型到针对精度的新 LLM 扩展规律。
回顾 2024 年的所有主要研究亮点,可能需要写整整一本书。即使对于这样一个快速发展的领域来说,这一年也格外高产。为了保持适当的简洁,我决定今年专注于 LLM 研究。但即便如此,要从这样一个充满事件的年份中选择一部分论文,又该如何下手呢?我能想到的最简单方法是按月份突出每月的一篇论文:从 2024 年 1 月到 12 月。
因此,在这篇文章中,我将分享一些我个人觉得既有趣又有影响力的研究论文,或者两者兼具。不过需要注意的是,这篇文章只是第一部分,重点是 2024 年上半年,从 1 月到 6 月。系列的第二部分(涵盖 7 月至 12 月)将在 1 月晚些时候发布。
https://x.com/rasbt/status/1874459295250796579
o1 趋势发现器:使用 o1 来监控并通知你社交媒体上的热门话题
它从关键影响者那里获取帖子,发现任何趋势,然后通过 Slack 提醒你。
这对 @firecrawl_dev 的营销来说是一个改变游戏规则的工具,并将帮助我们在 2025 年扩展内容规模。
推出 o1 趋势发现器 🔦
使用 o1 来监控并通知你社交媒体上的热门话题。
它从关键影响者那里获取帖子,发现任何趋势,然后通过 Slack 提醒你。
这对 @firecrawl_dev 的营销来说是一个改变游戏规则的工具,并将帮助我们在 2025 年扩展内容规模。

https://x.com/ericciarla/status/1874145916116222198
手机上以每秒 10 个 token 速度运行的 Ministral 8B
这是一台手机上以每秒 10 个 token 速度运行的 Ministral 8B。
当你没有网络时,Siri 无法拯救你。一个离线的备份 AI 至关重要。

https://x.com/localghost/status/1874175462509047973
产品
Aitless 创意实现与用户增长集成工具
Aitless 是一款功能强大的全能工具,专为帮助创意者和企业快速启动想法并扩大受众而设计。它集多种核心功能于一体,让您的增长之旅更加高效与简单:
📝 轻松创建表单,用于收集用户注册信息,快速搭建连接用户的桥梁。
🔗 内置推荐系统,通过用户分享实现病毒式增长,让每个参与者都成为您的推广大使。
📩 轻松发送电子邮件活动,精准触达目标受众,加强与用户的互动与沟通。
📊 在直观、简单的 CRM 中高效管理注册用户,无需复杂操作,即可掌控全局。
无论您是个人创作者还是企业团队,Aitless 都为您提供一个简化而强大的平台,让您专注于创意实现与用户增长,不再为工具之间的繁琐切换而烦恼。
https://x.wt.ls/?redirectTo=%2F%3Fref%3Dproducthunt
Monkt 强大的数据转换工具
Monkt 是一款强大的数据转换工具,专为将 PDF、Word 文件、Excel 表格、PowerPoint 演示文稿以及网页内容高效转化为结构化 Markdown 或 JSON 而设计,同时保留原有的语义结构。这款工具不仅提供精准的内容解析,还支持以下核心功能:
🔧 自定义模式应用:根据您的需求应用自定义模式,确保转换结果与项目规范完美匹配。
📂 批量处理支持:一次性处理多个文件,大幅提升工作效率,适合大规模文档管理场景。
📋 预定义模板:内置多种模板,轻松满足不同内容格式的需求,无需从零开始配置。
🌐 灵活的访问方式:通过 REST API 或简单易用的网页界面进行操作,适合开发者与普通用户。
无论是文档归档、数据迁移还是内容管理,Monkt 都能以卓越的性能和灵活的配置为您的工作提供极大助力。轻松实现数据的标准化和结构化,让复杂流程变得高效而简单。
https://monkt.com/?ref=producthunt
投融资
木蚁机器人完成B3轮融资,海外版图加速扩展
全球领先的群体搬运解决方案提供商木蚁机器人宣布,成功完成B3轮融资,由吾同投资领投。本轮融资为木蚁机器人带来了强大的资金支持,助力其进一步拓展海外市场,推动智能物流行业的全球化发展。
吾同投资是一家专注于中国市场的投资管理公司,凭借在高科技领域的深厚背景,已经成功投资了普渡机器人、海柔创新、优地机器人等多个行业领先企业。木蚁机器人自成立以来,吸引了包括中信建投、辰韬资本、蓝驰创投、德邦快递及起点资本等多家知名投资机构的支持,累计融资额已突破数亿元人民币。
本轮融资将主要用于推动木蚁机器人在海外市场的扩展。木蚁计划在欧洲、北美及日韩等重要国际市场加快布局,通过设立海外销售与服务网络,加强与当地合作伙伴的战略合作,进一步提升智能物流解决方案的国际竞争力。资金的注入将为木蚁机器人开辟更广阔的全球市场,提升其在智能物流领域的影响力。
木蚁机器人自2019年进入物流行业以来,成功开创了无人叉车的大规模应用,成为行业领先者。公司已经与京东、顺丰、跨越、德邦、安能等大型物流客户建立了广泛合作,帮助客户实现无人搬运,降低人工成本高达30%。木蚁机器人还与客户共同制定了物流行业的多个行业标准,包括车辆安全、效率指标、数据安全等。
公司自主研发的无人驾驶叉车和室内外一体化搬运解决方案已成功规模化落地,推出全球领先的单仓100+台智能调度系统,推动物流行业向智能化发展。木蚁机器人还计划利用人工智能技术开发快速部署的轻交付方案,并通过具身智能技术增强仓库存储与拣选能力,进一步提升解决方案的灵活性与易用性。
https://mp.weixin.qq.com/s/zsbfKN31r6PDRlIBD54-_
明心数智完成近2亿元B轮融资,致力于AI跨境数字化解决方案
近日,国内AI产业级应用服务商明心数智宣布完成近2亿元人民币的B轮融资。此次融资由柏睿资本领投,国方创新、狮城资本和老股东鼎晖VGC跟投,华兴资本担任独家财务顾问。融资资金将主要用于加大技术研发投入,提升大模型训练能力,拓展产品矩阵和业务,尤其是在跨境电商领域,进一步挖掘核心痛点和低效场景,助力行业数字化转型。
明心数智成立于2020年,定位为为跨境电商企业提供AI驱动的数字化解决方案。随着中国跨境电商快速增长,2024年上半年我国跨境电商进出口创下历史新高,市场对数字化和智能化服务的需求日益增加。明心数智利用AI技术,优化了跨境电商中的报关、退税申报和产融服务等环节,推动了跨境电商全链条数据的共享与应用。
公司推出的“跨赋”一站式跨境AI服务系统,通过打通产业链数据资源,将各参与方的数据转化为有价值的应用数据资产,帮助平台和卖家提升经营分析、增效降本,全面提升跨境电商运营效率。
柏睿资本等投资方对明心数智的未来发展充满信心。柏睿资本认为,跨境电商与生成式AI的结合具有强大的增长潜力,明心数智团队能够有效平衡技术创新与商业化,致力于建设跨境电商的数字化基础设施。国方创新则看好公司在珠三角及长三角跨境电商产业中的深耕和未来扩展潜力。
明心数智的创始人兼CEO曾伟嘉表示,公司将继续加强技术研发和产业化应用,致力于推动跨境电商行业的智能化升级,拓展更多AI应用场景,推动行业的全链条数智化转型。
明心数智不仅获得了投资者的高度评价,还荣获工信部“大数据产业发展示范单位”及人工智能产业“专精特新小巨人”称号,标志着其在产业数字化服务领域的领先地位。通过深度融合AI技术,明心数智不仅在跨境电商领域取得了显著成绩,也为其他垂直行业提供了有力的AI应用示范。
未来,明心数智有望继续扩大其在跨境电商、制造业及商贸流通等多个行业的影响力,成为全球领先的产业级AI应用服务商。
公司官网:https://www.mingxinsk.com/
https://36kr.com/p/3104370194222848
三星(SSNLF.US)加速布局机器人产业 斥资2670亿韩元增持Rainbow Robotics股份
韩国机器人公司Rainbow Robotics在周二提交的一份监管文件中表示,三星电子(SSNLF.US)已成为公司的最大股东。
该文件称,此前曾投资这家机器人公司的三星最近新买入了2670亿韩元(1.81亿美元)的股份。
这家科技巨头在另一份声明中表示,通过此次收购,三星还将成立一个直接向首席执行官汇报的未来机器人办公室(Future Robotics Office)。
在交易之前,三星电子是Rainbow Robotics的第二大股东,持有该公司14.71%的股份,约285万股。
此前,该公司的最大股东是创始人Oh Jun-ho及其关联实体。
公司官网:https://www.rainbow-robotics.com/en_main?_l=en
https://www.therobotreport.com/samsung-increases-stake-in-rainbow-robotics-establishes-future-robotics-office/
— END —
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/01/29925.html