我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!
资讯
苹果发现模型蒸馏Scaling Law!教师模型并非越强越好
苹果最新研究发现,在模型蒸馏过程中,学生模型与教师模型之间存在一种幂律关系,即学生模型的性能并非随着教师模型能力的增强而持续提升,反而在教师模型能力过强时,学生模型性能可能会恶化。研究指出,学生模型的交叉熵损失(LS)由教师模型的交叉熵损失(LT)和学生模型的模仿能力共同决定,而模仿能力与教师模型损失、教师与学生模型之间的能力比值、数据规模(NS)和蒸馏数据量(DS)相关。当教师模型能力远超学生模型时,继续提升教师性能的边际效用递减,学生模型性能可能变差。研究还发现,当学生模型参数量和蒸馏数据量趋于无穷大时,知识蒸馏能让学生模型性能逼近教师模型。
基于这些发现,苹果的研究团队针对模型蒸馏过程中的计算资源分配给出了建议。当总预算较小时(≲10¹² FLOPs),大部分资源应分配给教师模型的训练;当预算较大时(≳10²⁵ FLOPs),资源应在教师模型训练、推理和学生模型训练之间平均分配。对于规模较小的学生模型(≲3B参数),大部分资源应分配给教师模型;而对于规模较大的学生模型(≳10B),更多资源应分给学生模型本身的训练。此外,如果教师模型需要从头训练且只用于蒸馏单个学生模型,直接用所有资源监督训练学生模型,会比蒸馏效果更好。例如,对于1.82B参数的学生模型,当可用数据量超过1T token时,监督学习的学生模型损失比最理想情况下的知识蒸馏更低。只有当总数据量/计算量低于一个随学生模型规模增大而增大的阈值,且教师模型已经存在或将被重复使用多次时,知识蒸馏才更有效。
该研究由苹果位于英国剑桥的实验室完成,论文地址为:https://arxiv.org/abs/2502.08606。
https://mp.weixin.qq.com/s/ZziT8caM3HM6czZx7uayJw
DeepSeek R1遇难题142次”I give up”,研究还称需增加推理时机控制机制
最近,一项针对大语言模型推理能力的研究引发了广泛关注。研究人员基于美国广播智力游戏节目“NPR周日谜题挑战”构建了一个包含近600个问题的新基准测试,这些谜题只需普通英语知识和美国文化常识即可理解,但解决难度较高。研究团队来自韦尔斯利学院、得克萨斯大学奥斯汀分校等多所高校,他们从节目记录中整理出这些问题,并补充必要上下文信息以确保答案唯一性。测试对象包括OpenAI的o1、o3-mini、DeepSeek R1和谷歌Gemini Flash Thinking等模型,采用zero-shot prompting方式直接提供问题,不附加额外指导。
结果显示,OpenAI o1表现最优,准确率为59%,o3-mini为47%,而DeepSeek R1为35%。研究还发现,DeepSeek R1在595个测试问题中有142个直接放弃,表现为给出错误答案或陷入“无限思考”状态,即使在输出token限制提高到128K后,该问题依然存在。团队认为R1需要推理时机控制机制,以在接近输出限制时结束推理。此外,模型在推理过程中表现出异常不确定性,有时找到正确答案后仍继续探索其他可能性。研究还发现,输出约10000个token后,继续推理对提升准确率帮助
不大,而R1在输出约3000 token时就已超过Gemini Thinking表现。
该研究在Hacker News上引发热议,部分网友认为这些谜题并非传统意义上的“推理”挑战,而是更侧重于记忆回忆,质疑将其称为“推理”是否合适。也有网友指出,如果提示模型制定有效策略而非直接解决,表现可能会更好。此外,网友还对模型训练数据是否包含这些谜题和答案提出疑问。研究结果表明,模型在推理过程中常包含正确答案,但未能意识到这一点,这也引发了对分词器性能的讨论。
https://mp.weixin.qq.com/s/sbSUI0ECeqsSDaWoI3cPMw
梅卡曼德邵天兰:“通用机器人” 的吹牛竞赛与现实路径
梅卡曼德机器人创始人邵天兰在《晚点LatePost》的访谈中分享了他对通用机器人和具身智能发展的看法。他认为当前机器人领域的进展被过度高估,存在大量炒作现象,导致创业公司和学界为了吸引资金和发表论文而夸大成果。邵天兰指出,从视频展示到实机运行,再到大规模商业化,每一步的差距都很大。他强调,通用的不是机器人本体,而是核心组件,如移动、操作、感知和任务规划等基础能力,这些能力可以组合成适应不同场景的机器人。
梅卡曼德专注于机器人的“眼睛”和“大脑”,即高精度3D相机和感知、规划、决策能力。其产品已广泛应用于汽车、物流、家电等多个行业,覆盖上千个场景,市占率在中国3D视觉引导机器人市场排名第一。邵天兰提到,梅卡曼德的部署和调试时间已从数月缩短至数小时甚至数天,这得益于标准化传感器和软件套件的使用。他还强调,人形机器人在工业场景中并无优势,更适合服务业等需要与人交互的场景。
对于通用机器人的发展,邵天兰认为其整体成熟度类似十几年前的自动驾驶,短期内难以完全实现。他指出,通用机器人的实现难度大于AGI,因为它不仅需要软件层面的智能,还需要硬件实体的支持。他还提到,资本是助推器而非决定性因素,创业公司应专注于局部环节,形成商业闭环和数据飞轮,逐步拓展应用。
邵天兰认为,具身智能领域的下一个竞争点在于找到合适的产品形态和场景,并形成商业闭环。他强调,初期场景的选择至关重要,应避免过于简单或过于复杂的场景。梅卡曼德的路径是从制造业和物流场景起步,逐步拓展到更多行业。邵天兰坚信,机器人必须产生实际价值,不能停留在实验室或视频中,这是梅卡曼德一直追求的目标。
ACM宣布2024年杰出会员名单
2025年2月12日,纽约——国际计算机协会(ACM)宣布了56位新当选的杰出会员,这些专业人士因其在计算机领域的创新和贡献而受到表彰。ACM的杰出会员计划旨在表彰那些在技术成就和志愿服务方面表现卓越的会员。ACM主席Yannis Ioannidis表示,ACM的使命是推动计算科学和职业发展,而杰出会员计划不仅庆祝创新,还强调了参与技术社区的价值。
2024年当选的ACM杰出会员来自澳大利亚、孟加拉国、加拿大、中国、塞浦路斯、丹麦、德国、爱尔兰、印度、瑞士、土耳其、英国和美国等国家的顶尖大学、企业和研究机构。他们的研究领域包括自动驾驶汽车、人工智能、网络安全、移动网络、软件开发等。当选者需具备至少15年的专业经验,过去10年中有5年为ACM会员,并在计算领域取得显著成就或产生重大影响。
https://www.acm.org/media-center/2025/february/distinguished-members-2024
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
Gemini更新:要求 Gemini 考虑您的过往聊天记录来生成回复
从今天开始推出,您可以要求 Gemini 考虑您的过往聊天记录来生成回复。轻松继续之前的对话,或让其总结先前的主题。您可以查看、编辑或删除与 Gemini 的任何聊天记录,并查看其何时被使用。
在 Gemini Advanced 体验 → http://gemini.google/advanced
https://x.com/GeminiApp/status/1890137961871605863
一个小技巧让 LLM 处理整个 GitHub 仓库:将 URL 中的 “github” 替换为 “gitingest”
对于尚未了解的朋友,这里有一个方便的技巧,可以让 LLM 处理整个 GitHub 仓库:
=> 只需将 URL 中的 “github” 替换为 “gitingest”,即可获取整个仓库作为一个字符串,然后粘贴到您的 LLM 中进行讨论。
https://x.com/AymericRoucher/status/1890073279525982415
Next.js AI Chatbot 现已支持 Artifact:动态代码执行,图像生成,电子表格等
Next.js AI Chatbot 现已支持 Artifact:
https://x.com/aisdk/status/1890087328112419018
Rabbithole:一种全新的可视化方式,借助 AI 生成的后续问题,帮助您深入探索话题
推出 Rabbithole:一种全新的可视化方式,借助 AI 生成的后续问题,帮助您深入探索话题。
Rabbithole 旨在激发您的好奇心。
作为一个因 AI 而愈发好奇的人,我一直希望有一种更直观的方式来学习任何我感兴趣的内容,而无需在多个标签页或聊天窗口之间来回切换。
在桌面端体验 → https://rabbithole.chat
https://x.com/mohams2001/status/1890103682630406403
Veo 2登陆 YouTube Shorts
🎥 我们最先进的视频生成模型 Veo 2 现已登陆 @YouTube Shorts!
借助 Dream Screen 功能,创作者可以:
✨ 通过简单的文本提示快速生成与故事完美契合的新片段
✨ 用其创建视频背景
查看详情 → https://goo.gle/3X1ikfv
https://x.com/GoogleDeepMind/status/1890054036168356283
产品
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
Rabbithole 是一款由穆罕默德・易卜拉欣开发的产品。其诞生源于开发者借助人工智能满足好奇心、深入探究知识的需求。
以人工智能生成的后续问题为助力,提供全新的主题探究方式,旨在拓展用户好奇心,不仅追求快速搜索,更注重深度思考与知识留存。
不再有标签页过多的困扰 —— 所有内容都在一个简洁的界面中
https://www.rabbithole.chat/
投融资
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
Apptronik完成3.5亿美元A轮融资,加速人形机器人商业化
美国人形机器人公司Apptronik近日宣布完成3.5亿美元A轮融资,本轮融资由B Capital和Capital Factory联合领投,Google参投。此次融资将用于加速其旗舰产品Apollo人形机器人的规模化生产及人工智能训练数据体系的建设,并深化与梅赛德斯-奔驰、GXO物流等企业的试点合作。
Apptronik成立于2016年,是德克萨斯大学奥斯汀分校的衍生企业,专注于开发下一代人形机器人。其产品Apollo身高175厘米,体重73公斤,配备可更换电池组,续航约4小时,具备多功能性和适应性,可应用于仓库、制造工厂、建筑、石油天然气、零售、物流配送及老年护理等领域。
公司CEO Jeff Cardenas表示,此次融资将帮助Apptronik扩大生产规模,将产品定价压至5万美元以下,以实现商业化。此外,Apptronik还计划在奥斯汀建设“机器人数据工厂”,通过实体遥操作和仿真模拟等方式,大规模采集行为数据,构建“数据飞轮”闭环。
Apptronik与Google DeepMind的合作也在不断深化,双方将共同攻克人形机器人训练数据生成等技术难题。Cardenas认为,工业场景是人形机器人商业化的最佳起点,未来则有望进入家庭和医疗保健领域。
https://techcrunch.com/2025/02/13/apptronik-raises-350m-to-build-humanoid-robots-with-help-from-google/
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式
EnCharge AI获超1亿美元融资,加速模拟芯片在人工智能领域的应用
美国半导体初创公司EnCharge AI近期宣布完成了一轮超过1亿美元的B轮融资,此次融资由老虎全球(Tiger Global)领投。该公司专注于开发用于人工智能(AI)应用的模拟内存芯片,致力于提升AI处理速度并降低成本。EnCharge AI成立于普林斯顿大学,其芯片设计旨在为笔记本电脑、台式机、手机和可穿戴设备等提供更高效的AI加速解决方案。
此次融资吸引了众多战略和金融投资者的关注,包括Maverick Silicon、Capital TEN、SIP Global Partners、摩根溪数字(Morgan Creek Digital)、三星风险投资以及富士康与CTBC VC合作的HH-CTBC等。此外,EnCharge AI还获得了美国国防部和DARPA等机构的资助,显示出其技术的高度认可。
EnCharge AI的模拟内存芯片在能耗方面表现出色,其AI加速器的能耗仅为市场上其他芯片的1/20。公司预计将在今年晚些时候推出其首款产品。与传统GPU不同,EnCharge AI的芯片通过模拟存内计算技术,将计算与内存结合,显著提高了经济性。公司还开发了配套的软件工具,以优化芯片的效率和性能。
EnCharge AI的首席执行官纳维恩·维尔玛(Naveen Verma)透露,台积电(TSMC)将负责生产其首款芯片,并为公司提供了先进的硅材料。台积电对EnCharge AI的研发工作表现出极大关注,这为其技术开发提供了有力保障。
EnCharge AI的崛起正值美国政府大力推动本土创新与硬件基础设施发展的时期,其技术有望成为这一战略的重要组成部分。尽管市场竞争激烈,但EnCharge AI凭借其独特的模拟芯片设计和强大的团队背景,展现出良好的发展前景。
https://techcrunch.com/2025/02/13/encharge-raises-100m-to-accelerate-ai-using-analog-chips/
人工智能2024年四季度投融市场报告
2024年四季度,中国人工智能产业继续呈现蓬勃发展的态势。据CNNIC报告,中国已初步构建了涵盖芯片、算法、数据、平台、应用等环节的完整AI产业体系,相关企业超过4,500家,核心产业规模接近6,000亿元人民币。生成式AI领域尤为突出,截至2024年11月,国内已有309个生成式AI产品完成备案,其中北京、上海、广东三地占比近70%,发达城市在AI创新中的优势明显。
在技术层面,AI加速进步。2024年12月,海外OpenAI推出的新一代推理模型o3系列,在性能、安全性等方面取得显著进展,同期国内幻方量化旗下DeepSeek公司发布DeepSeek V3模型,其性能卓越,与全球领先闭源模型相差无几,且价格优势明显。2025年1月,DeepSeek R1模型正式发布,该模型在数学、代码、推理等任务可与OpenAI o1模型媲美,但在训练成本上更具竞争力,进一步推动了AI技术的普及与商业化,吸引全球对AI领域的关注。
此外,AI Agent作为新兴趋势,也正逐步成为AI领域值得关注的细分赛道。随着众多企业加速布局AI Agent产品和生态,其商用爆发的时点已渐行渐近。
— END —
快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2025/02/38232.html