大模型日报(10月12日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(10月12日 资讯篇)

资讯

01

李飞飞:不要数字孪生,要数字表兄弟,一张照片生成机器人训练场景基准

文章介绍了斯坦福大学李飞飞团队提出的“数字表亲(digital cousin)”概念及其研究成果。数字表亲不同于传统的数字孪生,它不是现实物体的精确虚拟副本,而是具有相似几何和语义特征的虚拟对象。这一创新旨在解决真实世界机器人训练成本高、不安全的问题,并通过模拟数据的高效生成来提升训练泛化性能。
研究提出了一种名为ACDC(Automatic Creation of Digital Cousins)的方法,它通过三个步骤实现:从RGB图像中提取信息、匹配虚拟资产并生成可交互的模拟场景。实验显示,与数字孪生相比,ACDC生成的数字表亲不仅保留了几何和语义特质,而且在训练中表现更为稳健,特别是在零样本虚拟到现实迁移的任务中,其成功率达到90%,远超数字孪生的25%。
该研究解决了数字孪生成本高、泛化能力不足的问题,为机器人学习提供了更灵活、高效的训练方式,并展示了其在复杂任务中的优越表现。
大模型日报(10月12日 资讯篇)
https://mp.weixin.qq.com/s/7PKeF1rp8A9iqB914j4yGw
02

清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity!

清华大学城市科学与计算研究中心发布了基于虚幻引擎5的城市具身智能模拟平台EmbodiedCity,为开放真实城市场景中的具身智能研究提供了支持。具身智能强调智能体在环境中的感知、学习与交互,但此前的研究多集中于室内场景,对城市级别开放空间的探索较少。EmbodiedCity基于北京市国贸区域的真实数据,构建了动态的3D城市环境,并提供了多类任务集,涵盖感知、推理、决策等具身智能任务。
该平台包含街道、建筑物等真实元素,并支持一系列具身智能基准测试任务,如跨模态场景理解、跨模态问答、多轮对话、具身导航/搜索、任务规划和个体行为模拟。这些任务测试智能体在复杂城市环境中的感知与决策能力。例如,智能体可以根据自然语言指令在环境中进行导航,或回答关于环境的语义和空间信息的问题。
EmbodiedCity支持在线和离线运行两种模式,在线平台提供智能体的实时控制和Python SDK调用,用户可以直接在网页上进行编程;离线模式则允许用户在本地部署环境,进行智能体训练和测试。该平台为开放空间具身智能研究提供了强大的工具,有助于推动智能体在现实城市环境中的应用和发展。
大模型日报(10月12日 资讯篇)
https://mp.weixin.qq.com/s/hR-t4NUIF3op7QGEjtS9qA
03

AI智能体最大收购案产品之父Jake Keller采访

在最新一期YC《LightCone》访谈中,Jake Keller分享了他在垂直领域AI Agents的成功经验及技术细节。他的公司Case Text在GPT-4发布前获得了测试机会,并在48小时内将公司全员投入基于GPT-4的AI法律助手CoCounsel的开发。这款产品在发布仅半年后就被Thomson Reuters以6.5亿美元收购,成为最大的垂直AI Agents收购案例。
Jake强调,垂直领域的AI应用不仅是简单的GPT模型封装,而是需要大量技术投入。例如,为解决法律行业中的复杂任务,团队需要处理从OCR技术到大语言模型(LLM)的提示设计,甚至包括如何分解复杂问题并引导模型逐步解决问题。Jake反对“套壳GPT”的说法,认为真正的难点在于构建高效的业务逻辑和提示框架,确保模型能够从70%提升到100%的准确率。
Jake还分享了他对OpenAI最新发布的o1模型的看法,指出该模型不仅能生成快速的答案,还展现了细致的思考能力,能够执行更复杂的任务。他提到,未来的AI不仅需要回答问题,还要学习如何思考,模仿顶级律师的推理过程,这将是AI技术未来发展的关键一步。
Jake的成功经验表明,AI在垂直领域的潜力巨大,而正确的技术和商业策略可以实现从概念到市场领导者的快速转变。
大模型日报(10月12日 资讯篇)
https://mp.weixin.qq.com/s/4nWimjcH1GIPsIFwWyJpug
04

o1诞生对下一轮AI爆发的启示:技术远远没有收敛,仍在演进

上月,智源社区举办了“从o1出发,探索LLM推理与思维链”的线上研讨会,多位顶尖研究者参与并分享了他们对OpenAI发布的o1模型的看法及技术前景。讨论中,研究者们探讨了o1模型在复杂推理任务中的突破,并提出其核心技术包括强化学习和私密思维链。
安波指出,o1模型在推理过程中采用不同于传统微调的技术路径,可能结合了Q-Learning和A*算法,增强了在数学、代码生成等领域的表现。他还强调推理能力的提升主要来自强化学习带来的长期决策优化。
刘知远认为,o1是大模型向更深层次思考能力迈进的重要一步,标志着从简单的“系统1”直觉决策向更复杂的“系统2”逻辑推理过渡。未来,数据合成和强化学习将是推动大模型智能提升的关键技术。
张宁豫关注o1在提升推理效率方面的潜力,提出在实际应用中不一定需要每次都进行深度思考,并探讨了记忆机制对模型的影响。她认为未来的研究方向应包括如何优化推理效率并动态调整模型的计算资源。
付杰则质疑当前的推理方式是否真正具备深度推理能力,并指出,o1或许是在将复杂问题蒸馏为较简单的解决方案,但距离真正的AGI还有差距。会议最后,专家们讨论了o1对未来AI安全、端侧应用等的影响,认为其具有广泛的学术价值但在商业应用上仍需进一步验证。
大模型日报(10月12日 资讯篇)
https://mp.weixin.qq.com/s/pKJC6lQsF-K6H0eX_iC9WA

推特

01

F1世界冠军费尔南多·阿隆索的AI化身,由Elevenlabs和DeepReel共同推出


介绍Ai.lonso——费尔南多·阿隆索的逼真AI化身。
我们很自豪地宣布与@AstonMartinF1车队、两届F1世界冠军费尔南多·阿隆索以及@DeepReel_AI的合作,推出Ai.lonso。
Ai.lonso将使Aston Martin Aramco的内容更加便捷并进一步个性化与粉丝的互动。首次发布时,文本转语音功能支持英语、西班牙语和法语,未来将加入更多语言。此次合作进一步巩固了Aston Martin Aramco一级方程式车队在最新技术领域的领先地位,旨在提升F1粉丝的体验。
点击这里查看完整故事:https://elevenlabs.io/blog/ai-lonso
听费尔南多用多种语言朗读他的“UNDERCUT”采访:https://astonmartinf1.com/en-GB/news/feature/undercut-fernando-alonso-forever-young

大模型日报(10月12日 资讯篇)

https://x.com/CollinRugg/status/1844581889593471060
02

不要再猜啦!OpenAI更新“提示优化”功能的 meta prompts

再也不用猜测了!
@OpenAI 已将他们在 DevDay 上发布的“提示优化”功能的 meta prompts 更新到文档中了。👀

大模型日报(10月12日 资讯篇)

https://x.com/_philschmid/status/1844634983278756040
03

OpenAI Swarm:轻量的框架,基于 ChatCompletions,旨在简化多智能体的协调工作

Swarm 已经开发了数月之久,现在我们很高兴将它公开分享!这是一个非常轻量的框架,基于 ChatCompletions 构建,旨在简化多智能体的协调工作!希望大家喜欢。
链接:https://github.com/openai/swarm

大模型日报(10月12日 资讯篇)

https://x.com/jamesmhills/status/1844889817340907807


04

马斯克推出了一支Optimus机器人军团,并表示人们将能够购买它们来完成任务

亲爱的 LLM 推特社区,我为大家制作了一本评估指南!🥳
https://github.com/huggingface/evaluation-guidebook
目标:分享 @huggingface 评估团队在管理 Open LLM 排行榜和设计 lighteval 过程中收集的实践见解和理论知识!

大模型日报(10月12日 资讯篇)

https://x.com/clefourrier/status/1844323838517252172
05

Rhymes AI推出Aria:一个25.3B参数的多模态模型,能够处理图像/视频输入

Aria 是由 @rhymes_ai_ 推出的一个全新模型:一个25.3B参数的多模态模型,能够处理图像/视频输入 🤩
他们以Apache-2.0许可证发布了该模型,并提供了微调脚本 👏
我进行了广泛的测试,继续阅读以了解更多 🧶

大模型日报(10月12日 资讯篇)

https://x.com/mervenoyann/status/1844356121370427546

产品

01

Octomind

Octomind 是一个人工智能驱动的测试工具,能够自动生成和运行测试用例,帮助开发者检测应用中的错误。其 QA Agent 无需用户指示,智能决定测试内容,简化了测试流程并提高了效率,确保软件质量和功能正常。

大模型日报(10月12日 资讯篇)

https://www.octomind.dev/


02

Generate Anything

Anything World 是一个平台,允许用户通过文本或图像提示生成、装配和动画化 3D 模型。用户可以在短时间内创建人形和生物,然后使用其动画工具轻松地为这些模型添加动画。这个平台的目标是为 3D 模型生成和动画提供一个一站式的解决方案,适合各种创意需求。它还支持与 Unity 和 Unreal 等引擎的集成,允许用户将生成的模型应用于更复杂的 3D 系统中。

大模型日报(10月12日 资讯篇)

https://app.anything.world/mesh-generation
03

ViBiDSampler

该项目是主要是在文本到视频(T2V)和图像到视频(I2V)扩散模型提升了视频生成,尤其是关键帧插值。现有I2V模型在两帧条件下的适应仍面临挑战。团队提出了一种新颖的双向采样策略,能够有效生成中间帧,同时采用先进的指导技术(CFG++和DDS)来增强插值效果。我们的方案在性能上处于领先地位,能够在单个3090 GPU上以195秒的速度插值25帧,分辨率为1024×576,确保高质量、流畅的视频生成。

                        大模型日报(10月12日 资讯篇)

https://vibid.github.io/
04

Aria

Aria 是一种先进的多模态混合专家模型,具有出色的语言和视觉任务性能,支持高达 64K 个令牌的输入,能够快速处理视频和文档理解。其轻量化设计使其在 GPU 上高效运行,适用于各种复杂的多模态应用。
https://huggingface.co/rhymes-ai/Aria

投融资

01

2024年39家美国AI初创公司融资超1亿美元清单

在2024年,AI初创公司依然是风险投资市场的焦点。截至第三季度,AI公司在该领域共融资189亿美元,占总风险投资的28%。其中,OpenAI创下历史纪录,获得66亿美元融资,成为迄今为止最大的一笔风险投资交易。
以下是2024年融资超过1亿美元的39家美国AI初创公司:
  • OpenAI:66亿美元,估值1570亿美元,投资方包括Thrive Capital、Tiger Global和软银。
  • KoBold Metals:4.915亿美元,专注于金属资源的AI驱动勘探。
  • Poolside:5亿美元,AI软件开发平台,估值30亿美元。
  • EvenUp:1.35亿美元,法律技术公司,估值10亿美元。
  • Glean:2.6亿美元,企业搜索平台,估值45亿美元。
  • Safe Superintelligence:10亿美元,AI研究实验室,估值40亿美元。
  • Magic:3.2亿美元,AI编程初创公司。
  • Abnormal Security:2.5亿美元,电子邮件安全公司,估值超50亿美元。

    大模型日报(10月12日 资讯篇)

https://techcrunch.com/2024/10/11/heres-the-full-list-of-39-us-ai-startups-that-have-raised-100m-or-more-in-2024/

推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/10/21575.html

Like (0)
Previous 2024-10-12 20:14
Next 2024-10-13 22:15

相关推荐