大模型日报(11月29日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(11月29日 资讯篇)

资讯

01

流式深度学习终于奏效了!强化学习之父Richard Sutton力荐


本文介绍了一种新的深度强化学习(DRL)算法——Stream-X,旨在解决流式强化学习中的流式障碍问题,并与传统批量强化学习算法在样本效率上竞争。流式学习模拟自然智能的连续学习过程,通过即时样本更新,无需存储历史样本。这种方法适用于资源受限、通信受限或隐私敏感的应用,但在深度强化学习中,流式学习往往面临不稳定和学习失败的问题,称为“流式障碍”。
流式障碍的原因在于流式学习直接从最新样本更新,而不依赖于存储和批量更新。为了解决这一问题,本文提出了Stream-X算法,它通过引入资格迹和稀疏初始化等技术,显著提高了流式学习的稳定性和样本效率,克服了传统流式方法的不足。
Stream-X在多个基准任务上表现出色,包括电力消耗预测、MuJoCo、DM Control Suite、MinAtar和Atari 2600,证明其能够在复杂环境中实现与批量方法相媲美甚至超越的性能。特别是在一些挑战性环境下,Stream-X算法表现出比经典流式方法和批量强化学习方法更好的样本效率和稳定性。
论文指出,Stream-X算法无需重放缓冲区、批量更新或目标网络,在流式学习中能够保持高效学习,并克服流式障碍。通过实验验证,Stream-X在长时间运行和复杂任务中展现了出色的稳定性和鲁棒性,证明了流式强化学习能够实现与传统批量方法相当的效果,甚至在某些任务中超过批量方法。
总的来说,Stream-X为流式深度强化学习开辟了新的方向,不仅解决了传统流式方法的流式障碍,还通过提高样本效率和稳定性,推动了强化学习算法的进一步发展。
大模型日报(11月29日 资讯篇)
https://mp.weixin.qq.com/s/5w8zl0Wf2DKfaNJz7iKuMw
02

rebuttal真的有用!这篇ICLR论文,所有审稿人都加了2分,直接跃升排名第9

最近,ICLR 2025评审过程中有一篇论文通过反驳(rebuttal)成功提升了评分2分,直接晋升至第9名。这篇论文名为《SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers》,提出了一种高效生成超高分辨率图像的方法,支持从1024×1024到4096×4096的图像分辨率。SANA通过一系列创新设计,显著提高了训练效率与图像生成质量,特别是在4K图像生成方面具有显著优势。
SANA的创新与技术亮点:
  1. 深度压缩自动编码器(AE):提出了一种新型的AE(AE-F32),其缩放因子提升至32倍,比传统的8倍压缩方法(AE-F8)效率更高,从而减少训练和生成高分辨率图像的计算量。
  2. 高效线性DiT:替换了传统的二次注意力模块,将自注意力的计算复杂度从O(N²)降至O(N),提高了图像生成的效率。
  3. 文本编码器:SANA采用了Gemma解码器作为文本编码器,展现了比CLIP或T5更强的文本理解和推理能力,并能更好地遵循人类指令。
  4. 优化的训练与推理策略:提出了基于Clip Score的训练策略,通过多个视觉语言模型(VLM)生成图像描述,提高了文本与图像的一致性。新的Flow-DPM-Solver优化了推理过程,减少了推理步骤,提高了效率。
实验结果:SANA在生成4K分辨率图像时,速度比当前最先进的FLUX方法快了100倍以上,在生成1K分辨率图像时也快了40倍。SANA的训练模型不仅在多个标准上表现优异,而且其量化版本也能够在边缘设备上实时生成高分辨率图像。
反驳与论文评分提升:在审稿过程中,部分审稿人认为SANA的创新不足,提出了对其原创性和技术细节的质疑。针对这些问题,作者通过详细的解释和消融实验,强调SANA在设计和实现上的独特之处。例如,作者指出他们的线性注意力模块与传统方法有本质不同,采用的Mix-FFN加速了训练收敛。此外,作者还逐一回答了审稿人关于模型和方法的具体问题,最终说服了审稿人提高评分。
特别是第二位审稿人,原本对线性注意力模块的实现有疑问,但在作者详细解释后,也修改了评分。第四位审稿人则对论文表示了极大的认可,认为该工作应当成为会议亮点,最终给予了最高分。
大模型日报(11月29日 资讯篇)
https://mp.weixin.qq.com/s/DSdsY6VtasXPNdD9NxhLig
03
元资助

陶哲轩新论文“太反直觉”:再战Erdős问题,证明44年数学猜想是错的

陶哲轩最新研究在“自然数倒数之和是否为有理数”的问题上取得了一系列重要进展,最引人注目的是他证明了一个非常反直觉的猜想:存在一个递增的自然数级数 aka_kak,使得对于任意有理数 ttt,级数的和始终是有理数。这一成果震惊了许多数学家,包括Topos研究所的John Carlos Baez,他对这个结论表示极大的惊叹,认为这个结果非常反直觉。
反直觉的核心:通常情况下,级数的和要是有理数就已经非常困难,而要求该级数对所有有理数 ttt 的偏移量都保持有理性,难度更是成倍增加。每个不同的 ttt 都增加一个新的约束,要求级数和对所有有理数保持一致,几乎让人认为这是不可能的。Kenneth Stolarsky曾提出过相反的猜想,认为这种级数不可能存在,而陶哲轩的证明则推翻了这一猜想。
陶哲轩的解法:陶哲轩的策略是通过“迭代逼近法”来逐步解决这个问题,而不是直接构造这样的级数。他首先将问题转化为研究一个集合,再通过迭代逼近的方式逐步解决。陶的方法避免了传统的数论难题,主要依赖有理数集的可数稠密性。最终,陶的结论解决了Erdős问题#266,这是一个与古代埃及分数(埃及分数)运算相关的问题。
Ahmes级数与Stolarsky猜想:Ahmes级数由严格递增的自然数序列 aka_kak 组成,通常人们会认为这种级数是无理的,但陶证明了在特定情况下,级数和可以是有理数。陶的研究进一步拓展了Erdős问题#263和#264,特别是解决了关于指数级和阶乘级数(如 ak=2ka_k = 2^kak=2k)的情况。
迭代逼近与新分界线:陶的方法首先展示了一个条件 ak+1=O(ak2)a_{k+1} = O(a_k^2)ak+1=O(ak2),并通过渐近分析发现,当级数满足 ak+1=O(ak)a_{k+1} = O(a_k)ak+1=O(ak) 且级数的倒数和收敛时,可以找到一个新的级数 bkb_kbk,使得其倒数和为有理数。通过这种方式,陶逐步突破了指数增长的限制,将分界线定位于指数增长的序列。
陶哲轩与Erdős的联系:这项研究还与数学大师Paul Erdős有深厚的渊源。Erdős不仅是该问题的提出者,还为陶哲轩的数学生涯提供了重要支持。陶哲轩曾在2015年解决了Erdős提出的“埃尔德什差异问题”,而Erdős问题#266的解决也证明了陶在数学上的卓越贡献。
大模型日报(11月29日 资讯篇)
https://mp.weixin.qq.com/s/8Xszz8jp1kjNTovnu7uxHg
04

LeCun与奥特曼达成共识:承认AGI 5到10年降临,但LLM注定死路一条

,AI领域的重量级人物LeCun作出了引人注目的声明,称人类水平的人工智能(AGI)可能在未来5到10年内实现,这一说法与他之前的预期相左。此前,他曾坚信AGI距离我们还有10到20年的时间。然而,LeCun最新表态指出,虽然AGI的到来不太可能是明年或后年,但在10年内可能会成为现实。对此,他强调自己的预测与Sam Altman和Demis Hassabis等AI大佬一致。

尽管LeCun调整了AGI的时间表,他依然对当前的大语言模型(LLM)持批评态度,认为它们不是实现AGI的正确路径。他认为,LLM本质上是“系统1”思维,只能通过简单的模式匹配和反应来处理问题,无法进行深度的推理和规划。相反,LeCun支持采用“系统2”思维的架构,例如JEPA(联合嵌入预测架构),这类AI能够通过更接近人类认知的方式进行世界的学习和预测。
LeCun的世界模型理念强调,AI需要从实际的物理世界中学习,并根据观察进行规划与决策。与现有的生成式模型不同,JEPA通过对视频中被隐藏或缺失部分的预测进行学习,而非单纯重建像素。这种方法能够让AI在理解世界的动态变化和因果关系上更具效率。例如,V-JEPA(视频JEPA)通过观察视频中的场景变化,学习到如何在现实世界中预测并做出决策。
在LeCun看来,当前LLM虽然在语言处理方面取得了很大进展,但它们仍无法理解和应对现实世界的复杂性,尤其是在物理和动态系统的理解上。LeCun强调,AGI的真正突破需要AI能够像婴儿一样通过观察学习世界的规律,并具备长时间的记忆和逻辑推理能力。JEPA架构的提出,是LeCun对未来AI系统发展的方向之一,它将有助于实现目标驱动的人工智能,进一步推动AGI的到来。
总结来看,LeCun的观点反映了他对AGI发展路径的独到见解:他不认为LLM是通往AGI的正确道路,而是认为通过观察和预测世界,基于目标驱动的架构(如JEPA)将更有可能带来真正的人类级AI。这一观点为AI研究者指明了新的发展方向,并为行业投资者提供了更多思考的空间。
大模型日报(11月29日 资讯篇)

https://mp.weixin.qq.com/s/1AtBIAskKtLFY7dLpkTtBQ

05

马斯克的机器人徒手接个球,2000万网友集体围观

Optimus最新升级的灵巧手引起了广泛关注,特别是在马斯克亲自站台、2000多万网友围观的情况下。此次升级的灵巧手相比之前的版本在自由度上实现了翻倍,手部自由度达22个,手腕和前臂分别有3个自由度。Optimus副总裁Milan Kovac透露,这项新技术已经投入使用,并展示了远程操控下的实际效果——机器人成功接住并控制网球,表现出极高的灵活性和精准度。

技术进展:
  • 自由度翻倍:与先前版本(11个自由度)相比,最新的灵巧手的自由度达到了22个,使其运动更加灵活且精准。这些自由度不仅仅体现在手部,还包括手腕和前臂,极大提升了机器人的操作能力和细节控制。
  • 远程操控:在最新演示中,灵巧手通过低延迟的远程操控进行操作,展示了其高效的实时反应能力。Kovac强调,未来还将进一步扩展触觉传感能力,提升肌腱控制精度,并减少前臂的重量,以便提升性能。
挑战与改进:
  • 灵活性与柔韧性:随着自由度的增加,手指和手掌需要具备足够的柔软性和适应性,同时要保留保护层,确保触觉反馈不受影响。这一挑战在设计过程中得到了特别关注。
  • 未来计划:Optimus计划在年底前继续改进,尤其是在触觉传感集成方面,通过提升触觉反馈覆盖面积和实现精细化控制,进一步提升机器人手部的性能。
行业对比与竞争:Optimus灵巧手在全球范围内仍处于领先地位。其他公司也在不断推出具有更高自由度的机器人手,如OpenAI投资的1X机器人具备20个自由度,国内智元机器人的新款机器人具备19个自由度。然而,Optimus的22个自由度已接近人类手部(27个自由度),表现出强大的竞争优势。
Neuralink与Optimus的潜在合作:随着灵巧手技术的突破,Optimus与马斯克旗下的Neuralink脑机接口公司合作的可能性愈发接近。马斯克曾提到,未来可以通过Neuralink植入物控制机器人手臂或腿,进而帮助失去四肢的患者恢复运动能力。一旦实现,这项技术将大幅提升假肢的控制精度与便利性,极大改变人类的生活方式。
大模型日报(11月29日 资讯篇)
https://mp.weixin.qq.com/s/uT7w1NhR4VL5gx3PXC8Bwg

推特

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

Runner H:先进的现实应用 AI 代理,能处理范围更广的任务

介绍 Runner H:最先进的现实应用 AI 代理。它不仅在速度和准确性上超越了竞争对手,还能处理范围更广的任务,应对其他系统无法解决的挑战。以下是 WebVoyager 中的一些例子:
需要精准的网页数据抓取?Runner H 提供无与伦比的准确性,利用高级过滤器和内置需求提取信息,就像为您的数据需求配备了一位顶级大厨。想吃千层面了吗?🍝

大模型日报(11月29日 资讯篇)

https://x.com/hcompany_ai/status/1861852350828224967
02 

Mistral AI 发布初创企业计划 Mistralship

宣布@MistralAI 初创企业计划:Mistralship!

加入为期 6 个月的 10 家初创企业项目,您将获得:
• La Plateforme 平台价值 30,000 美元的积分
• 我们解决方案与科学团队提供的一对一专属支持
• 新模型和产品的抢先体验权
立即申请,截止日期为 1 月 5 日:
链接
大模型日报(11月29日 资讯篇)
https://x.com/sophiamyang/status/1862177692780495356
03

Cursor盗梦空间?Cursor Composer Agent 通过指令使用自己完成任务

Cursor Composer Agent 通过指令以“盗梦空间”风格使用自己来完成任务!
实现这一点相当困难,需要严格的管理。成为 Patreon 会员即可下载脚本,链接在评论区。
对 Cursor Agent 的提示:
使用你自己来指示“使用你自己”功能,指导你开发一个使用 Pygame 的塔防游戏。
以下是 Cursor 的规则:
当被要求“使用你自己”时,请在 use_yourself.py 中使用 use_yourself 函数。这段代码是存在的,您可以直接用请求调用它。
当被指示“使用你自己”时,函数的参数将是给另一个 AI 代理的指令,用于指导它如何使用你。因此,您需要设计这个函数参数,以便代理能够指导您执行用户的请求。
您的参数必须以 “我是 Cursor,请指导我…” 开头。
您必须始终以终端命令的形式,使用字符串参数调用此函数。
通过命令行导入此函数来调用,它是一个同步函数,因此您可以使用 await 进行调用。

大模型日报(11月29日 资讯篇)

https://x.com/hive_echo/status/1861687832982757493
04

npm i ai 现在可在移动端使用

npm i ai
现在可在移动端使用,搭配 Expo。

大模型日报(11月29日 资讯篇)

https://x.com/aisdk/status/1862188314427535689

产品

01

AgentAuth

AgentAuth 是一款专为 AI 代理设计的全面认证解决方案,简化开发者在处理多种服务的身份验证时所面临的复杂性。它支持超过 250 个应用,兼容 15 种以上的代理框架,如 Langchain 和 Llamaindex。AgentAuth 提供自托管和白标选项,并通过统一仪表板监控用户账户,处理 OAuth、API 密钥、JWT 等复杂的认证流程,使开发者能够专注于构建更有价值的功能。
大模型日报(11月29日 资讯篇)
https://agentauth.dev/
02

Boost Space

Boost.space 4.0 是一款创新的数据管理平台,解决企业在数据分散和工具繁多方面的挑战。通过整合超过 2000 种工具,Boost.space 4.0 提供了一个“真相的单一来源”,使企业能够集中数据、自动化工作流程,并利用 AI 提供可操作的洞察。其主要功能包括市场应用流模板、内置 AI 能力和直观的仪表板,帮助小型企业和数据驱动团队提升效率。
大模型日报(11月29日 资讯篇)
https://boost.space/product-hunt

投融资

01

AI代理创业公司/dev/agents完成5600万美元种子轮融资,估值达到5亿美元

AI代理公司/dev/agents,由前谷歌高管创立,刚刚完成了5600万美元的种子轮融资,融资后公司估值达到5亿美元。该公司专注于开发一种新的操作系统,旨在充分释放AI代理的潜力,帮助开发者更容易地构建和部署多步骤的AI任务执行工具。类似于Android操作系统为智能手机发展铺平道路,/dev/agents希望为AI代理领域提供一个统一的平台。
此次融资由Index Ventures主导,Alphabet的独立增长基金CapitalG共同领投,Conviction Capital也参与其中。融资吸引了许多知名科技领袖的投资,包括OpenAI联合创始人Andrej Karpathy、Scale AI CEO Alexander Wang、Palo Alto Networks CEO Nikesh Arora以及Android创始人Andy Rubin等。投资者认为,尽管完全成熟的AI代理技术尚未到来,但/dev/agents作为一个新的操作系统平台,有可能在未来的AI生态系统中发挥关键作用。
该公司预计将在2025年初推出首个产品版本。其商业模式可能与Android类似,未来将通过平台上的交易或订阅服务获利。
公司官网:https://sdsa.ai/
大模型日报(11月29日 资讯篇)
https://techcrunch.com/2024/11/28/ai-agent-startup-dev-agents-has-raised-a-massive-56m-seed-round-at-a-500m-valuation/
02

Linkup通过合法方式连接大型语言模型与优质内容源

法国创业公司Linkup正在开发一项API,旨在为开发者提供访问来自受信任的优质内容源的能力,从而增强大型语言模型(LLM)的回答。Linkup的目标是通过为AI开发者与内容发布商之间建立合法的内容许可合作,来避免现有的网页抓取(scraping)方式所带来的法律风险。

在AI发展过程中,许多公司通过网页抓取技术从互联网上获取数据,尤其是在生成型AI(如ChatGPT)中使用。然而,未获得授权的抓取行为已经引发了越来越多的法律争议,尤其是在OpenAI与《纽约时报》的诉讼等高调案件之后。Linkup因此看到了机会,决定为AI公司提供一个合规的解决方案,既能满足数据需求,又能尊重内容创作者的版权。

Linkup与内容出版商签订许可协议,集成到其内容管理系统(CMS)中,从而合法地获取其内容,避免了抓取带来的法律问题。根据使用频次,Linkup向内容发布商支付费用。目前,Linkup的主要客户包括那些利用AI应用程序增强其产品的公司,特别是那些需要实时更新和高质量外部信息的业务应用。

Linkup并非唯一尝试将优质内容引入LLM的创业公司,ScalePost等公司也在这一领域展开了竞争。不过,Linkup的独特之处在于其提供了一个完整的许可解决方案,帮助内容出版商在这个新时代中获得应得的报酬。

最近,Linkup完成了300万欧元(约合320万美元)的种子轮融资,投资方包括Axeleo Capital、Motier Ventures、Seedcamp等机构,以及一百多位商业天使。公司目前有约10名员工,计划在未来一年内增聘10名新员工。

公司官网:https://www.linkup.so/

大模型日报(11月29日 资讯篇)

https://techcrunch.com/2024/11/28/linkup-connects-llms-with-premium-content-sources-legally/
推荐阅读

— END —

1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/11/22498.html

Like (0)
Previous 2024-11-28 10:44
Next 2024-11-30 15:34

相关推荐