大模型日报(12月12日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月12日 资讯篇)


资讯

01

谷歌发布新一代大模型


谷歌发布了新一代大模型Gemini 2.0,由CEO皮猜宣布,专为AI Agent设计,已提供给开发者内测,并将在Gemini和搜索产品线中集成。Gemini 2.0 Flash实验版模型网页端已开放,支持多模态输入输出,包括图像、视频、音频,以及可控的多语种文本到语音输出。它还能调用谷歌搜索、代码工具等。谷歌还推出了深度研究功能,基于高级推理和长上下文能力,能生成复杂主题的研究报告。Gemini 2.0在多模态图片、视频能力以及编码、数学等方面表现超越前代,速度是1.5 Pro的两倍。明年,Gemini 2.0将扩展到更多产品中,如Project Astra,提升对话、使用新工具、记忆力和改进延迟。Project Astra将移植到眼镜等移动终端,并与游戏开发商合作,测试基于Gemini 2.0的游戏智能体。Gemini 2.0 Flash实验模型通过Google AI Studio和Vertex AI的Gemini API向开发者提供,展示视频理解、工具使用、空间理解的应用。
大模型日报(12月12日 资讯篇)
https://mp.weixin.qq.com/s/c39MbjULBW5M_8vdO-VUXQ
02

RL+Control 如何将机器人可靠性逼进 99.9%?

本文是关于“RL+Control:将机器人可靠性逼近99.9%”的线上圆桌沙龙的总结。讨论的核心是如何利用强化学习(RL)和基于模型的控制(MBC)提高机器人的稳定性和可靠性。专家们认为,机器人的可靠性不仅涉及硬件稳定性,还包括恢复能力,且需结合场景需求。强化学习与控制的结合是提高稳定性的可行路径,如将控制的安全性融入RL或借助控制结构使RL更稳健。
在机器人移动(Locomotion)方面,仿真到现实强化学习(Sim2Real RL)是流行的方法,它利用仿真环境中训练的策略并部署到现实世界。Sim2Real RL的优势在于其离线计算能力和绕开状态估计问题,但与基于模型的控制(MBC)相比,它在算力运用和状态估计上有所不同。石冠亚提出,RL和Control应视为问题而非方法,强调了RL在真实世界学习的重要性,并分享了结合RL和Control的工作,如人形机器人控制和基于MPC的内容。
朱秋国讨论了从传统MPC、ZMP方法到现在使用RL的转变,认为RL能更好地展现机器人全身运动能力。他提到,尽管传统方法稳定可靠,但RL提供了更高的灵活性和协调性。卢宗青则从强化学习算法研究的角度出发,强调了与物理世界的交互和视觉信息的重要性,并提出了基于视觉信息的姿态生成模型。
罗剑岚强调了机器人操作(Manipulation)的挑战,指出其与Locomotion的不同,认为Manipulation需要应对外部世界的无限复杂性,而RL通过与外界交互能更好地适应这种不确定性。他提出,要实现高性能操作并达到高可靠性,最通用、最具扩展性的方法就是强化学习。
专家们还讨论了机器人可靠性的衡量问题,认为人形机器人要达到99%以上的可靠性极具挑战,且对于不同的应用场景,对可靠性的要求也不同。他们认为,机器人的可靠性需要结合硬件、软件算法以及场景需求来综合评估,并期待通过不断的技术迭代和创新来提高机器人的稳定性和可靠性。
大模型日报(12月12日 资讯篇)https://mp.weixin.qq.com/s/DeB6t9304gxQmkAI82CrrA
03
元资助

Scaling Laws, O1 Pro Architecture, Reasoning, Training Infrastructure, Orion, and Claude 3.5 Opus Failures

文章深入探讨了多项技术进展及其挑战,特别是针对AI推理计算的优化和硬件架构方面的细节。文章首先分析了”Scaling Laws”的最新发展,指出随着模型规模的增加,推理计算需求呈指数级增长,这使得计算基础设施的需求也变得更加庞大。为了应对这种情况,提出了O1 Pro架构,这一架构通过提升计算单元的并行度和增强数据处理能力,在推理任务中取得了显著的性能提升。
在推理计算的过程中,文章详细讨论了模型推理的技术瓶颈。随着AI模型参数的不断增加,推理计算的效率成为影响模型性能的关键因素。推理计算的瓶颈主要集中在存储带宽和计算单元的并行能力上,而这些瓶颈的存在限制了模型规模的进一步扩大。为此,新的硬件架构尝试通过优化内存访问和计算调度来提升推理速度,从而满足大规模AI模型的计算需求。
同时,文章还探讨了”Reasoning”技术的最新进展。通过对推理算法和优化方法的调整,AI系统能够更好地理解和处理复杂的任务,尤其是在自然语言处理领域。在推理过程中,O1 Pro架构通过改进的流水线调度和算力优化,使得在更复杂的推理任务中,AI能够提供更准确和高效的回答。
文章还强调了训练基础设施的挑战,特别是在应对大规模AI模型时,训练所需的计算资源呈现出指数级增长,这导致传统计算架构已经无法满足需求。为了解决这个问题,O1 Pro架构不仅在推理阶段进行了优化,还在训练阶段实现了更高效的计算和资源调度。训练过程中的并行性和调度策略变得尤为重要,尤其是在大规模数据集和复杂模型的情况下,O1 Pro架构能够提供更强的计算能力和资源管理。
在分析了推理计算和训练基础设施的最新进展后,文章进一步讨论了Orion和Claude 3.5 Opus的技术问题。Orion在推理计算中遇到了性能瓶颈,尽管硬件架构进行了优化,但由于模型复杂性增加,仍未能达到预期的性能目标。而Claude 3.5 Opus在推理计算中的失败主要源于其架构未能充分利用新型硬件的优势,导致推理计算无法高效执行,进一步证明了硬件和软件优化需要更加紧密的配合。
大模型日报(12月12日 资讯篇)
https://semianalysis.com/2024/12/11/scaling-laws-o1-pro-architecture-reasoning-training-infrastructure-orion-and-claude-3-5-opus-failures/#scaling-inference-compute-through-search
04
元资助

Generative Video WorldSim, Diffusion, Vision, Reinforcement Learning and Robotics — ICML 2024 Part 1

内容涵盖了2024年ICML大会的一些重要技术讨论,重点涉及生成性视频模型、扩散模型、计算机视觉、强化学习以及机器人技术等前沿话题。文章中首先介绍了OpenAI的Sora模型,该模型结合了Diffusion Transformers技术,展示了如何通过特定的归纳偏差在生成视频领域取得显著的进展。Bill Peebles在ICML上的报告详细讲解了Sora的架构和应用,并提出了该模型在引入这些偏差时所面临的挑战。
Google DeepMind在视频生成领域也表现突出,带来了两篇获奖论文:“Genie: Generative Interactive Environments”和“VideoPoet: A Large Language Model for Zero-Shot Video Generation”,展示了通过大型语言模型生成视频的零样本能力,这标志着视频生成技术迈向了新的高度。文章进一步探讨了扩散模型在生成任务中的应用,Sander Dieleman的报告强调了扩散模型在频域中的回归应用,这为图像和视频生成提供了新的思路。
另外,文章提到了一些流匹配(Flow Matching)技术的进展,特别是在高分辨率图像合成中的应用,Stable Diffusion 3便是其中的一个重要实例。Ben Poole介绍了如何通过2D先验推断3D结构,结合NeRFs和DreamFusion技术,推动了计算机视觉的边界。
在机器人领域,Chelsea Finn的四场报告则聚焦于如何利用视频数据训练机器人,并发展出了具有自主适应能力的机器人通用智能。她提出,机器人领域的进展可以为机器学习带来新的见解,特别是在如何将视频和视觉语言模型结合起来进行行为生成和任务执行方面。
大模型日报(12月12日 资讯篇)https://www.latent.space/p/icml-2024-video-robots

推特

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

ChatGPT 现已集成到 iOS、iPadOS 和 macOS 的 Apple 体验中

ChatGPT 现已集成到 iOS、iPadOS 和 macOS 的 Apple 体验中,用户可以直接在操作系统中使用 ChatGPT 的功能。

大模型日报(12月12日 资讯篇)

https://x.com/OpenAI/status/1866943282795938013
02 

使用 OpenAI Canvas 协作写作与编程

新短期课程:使用 OpenAI Canvas 协作写作与编程!
探索使用 OpenAI Canvas 的新方法,通过这一用户友好的界面,与 ChatGPT 协作进行头脑风暴、草稿撰写和文本与代码的精细化修改。
在这门短期课程中,由@OpenAI与 OpenAI 研究负责人@karinanguyen_共同开发并教授,你将学会如何利用 Canvas 提升工作流程效率。
Canvas 超越了简单的聊天交互,提供了一个并排的工作空间,便于你与 ChatGPT 协作编辑和优化文本或代码。这使得在写作或编码时的头脑风暴、草稿撰写与迭代更加自然高效。作为自 2022 年 ChatGPT 发布以来视觉界面的首次重大更新,Canvas 提供了与 AI 协作的全新创新方式。
例如,在编写代码的初版后,Canvas 可以审查并提供改进建议。它还可以通过添加日志记录、定位问题、编写注释等帮助调试。此外,你还将学习如何为 Canvas 这样的界面训练模型的相关知识。
在这个仅包含视频的短期课程中,你将:
• 学习如何请求逐行反馈,并通过直接编辑模型输出中的选定区域来控制工作的迭代。
• 学习如何使用快捷菜单中的快速自动化工具,调整文本语气和长度、优化代码,并恢复工作内容的历史版本。
• 学习如何将 Canvas 用作研究助手工具,例如请求模型推理关于截图图表的内容,并根据生成的报告继续提问。
• 学习如何让模型编写 Python 代码以复现截图中的图表。
• 了解如何从零开始创建一个视频游戏(如《太空战舰》),并对其进行编辑和以独立 HTML 文件形式展示。
• 获得创建 SQL 数据库(基于架构图片)的实际应用示例。
• 理解支持 Canvas 的模型训练和设计过程!

大模型日报(12月12日 资讯篇)

https://x.com/AndrewYNg/status/1866880693588070440
03

Midjourney推出Patchwork:实验性多人世界构建工具,用于搭建故事的基础框架

今天,我们推出了一款全新的实验性多人世界构建工具——“Patchwork”。它结合了语言模型、图像模型以及基于画布的界面,用于搭建故事的基础框架。查看下面的 🧵 获取链接和更多文档信息。玩得开心!

大模型日报(12月12日 资讯篇)

https://x.com/midjourney/status/1866964271948763553
04

BLENDERGPT 全面上线,快捷生成 3D 资产

BLENDERGPT 现已全面上线,无需等待名单。
生成 3D 资产从未如此简单。以下是我在短短一分钟内完成整个 3D 场景的展示。
立即免费试用,访问:blendergpt.org

大模型日报(12月12日 资讯篇)

大模型日报(12月12日 资讯篇)

https://x.com/gd3kr/status/1866910744601825666

产品

01

AISmartCube 低代码平台开发

AISmartCube 是您的低代码平台,致力于构建、自动化和优化 AI 工具与助手。通过访问丰富的预制解决方案库,您可以轻松地选择适合的模块来满足不同需求,无需从零开始开发,显著降低技术门槛。平台还支持流畅的工作流程自动化,将繁琐的任务一键简化,让您的日常操作更加高效。此外,AISmartCube 提供公共知识库的无缝集成功能,使您的 AI 工具和助手拥有更强大的知识支持和推理能力,从而更智能地完成复杂任务。不论您是初创企业、企业团队,还是个人开发者,AISmartCube 都是您创新与效率提升的最佳助手,让 AI 工具的创建变得前所未有的简单!
大模型日报(12月12日 资讯篇)
https://aismartcube.com/?ref=producthunt
02

Remention 在线监控工具

Remention 是一款强大的在线监控工具,可以实时追踪数十亿次在线对话。它通过精准的数据分析和智能算法,帮助用户发现与其产品相关的最佳提及位置。不论是在社交媒体、论坛、评论区,还是其他在线平台,Remention 都能迅速识别潜在商机,为用户提供清晰的互动路径。
通过这款工具,企业不仅能够快速吸引潜在客户,还可以与目标用户建立更深层次的联系,提升品牌知名度。同时,Remention 的精准洞察能力还能帮助优化营销策略,从而推动用户增长和收入提升。这是一款让企业真正了解市场动态、抓住每一个商机的创新解决方案。
大模型日报(12月12日 资讯篇)
https://www.remention.ai/?ref=producthunt

投融资

01

Albert Invent 利用人工智能平台有望颠覆化学行业

Albert Invent,致力于通过人工智能平台变革化学行业,最近成功完成了由 Coatue 主导的 2250 万美元 A 轮融资。该公司提供的 AI 平台,名为 Albert Breakthrough,能够基于过去化学实验的数据帮助化学家们在制定化学品时进行分子级的数据分析。平台结合了结构化数据和公司专有的 AI 模型,旨在加速化学产品的开发,提升产品质量。其核心能力包括实时生成毒理学预测,并且在许多标准行业模型中表现优异。
Albert Invent 的客户包括 Chemours、Solenis、Keystone Industries、Applied Molecules、Henkel 和 Nouryon 等知名化学公司。公司 CEO 兼联合创始人 Nick Talken 表示,Albert Breakthrough 是一种 SaaS 产品,已经被全球最大的化学公司用于重新定义化学科学,并为可持续性问题和个性化医疗设备等提供解决方案。该平台的成功不仅得益于其 1500 万化学分子数据的训练基础模型,还依赖于从公共化学数据中构建的深度学习模型。
在此前的融资中,Albert Invent 已获得了来自 Index Ventures 的种子轮投资(2022 年底)。此次 A 轮融资的其他参与者还包括 TCV、Index Ventures、F-Prime 和 Homebrew。David Schneider,Coatue 的普通合伙人表示,支持 Albert Invent 是因为它通过最新的 AI 技术带来化学研究的高效性和商业效益。Nouryon 的首席技术官 Johan Landfors 也表示,Albert Breakthrough 已成为其产品开发的关键工具。
公司官网:https://www.albertinvent.com/
大模型日报(12月12日 资讯篇)
https://techcrunch.com/2024/12/11/albert-invent-hopes-to-revolutionize-the-chemicals-sector-with-its-ai-platform/
02
                       

Finny通过AI帮助财务顾问精准找到潜在客户

Finny是一家由Y Combinator支持的初创公司,致力于利用人工智能帮助财务顾问更高效地找到潜在客户。该平台通过AI分析帮助财务顾问筛选符合他们目标客户特征的潜在客户,并根据客户转换的可能性提供优先级评分。通过这一方式,Finny帮助顾问减少了对不合格客户的时间浪费,并且优化了客户获取过程,提供类似“热”客户的潜在机会。
Finny成立于2023年底,并于2024年夏季加入了Y Combinator。公司于2024年5月推出了最小可行产品(MVP),并在近期完成了420万美元的种子轮融资,融资由Maple VC和HNVR共同主导,Crossbeam Ventures、Liquid 2和Y Combinator等也参与了此次融资。此次种子轮还吸引了多个天使投资者的支持,包括Morningstar的CEO Kunal Kapoor、Gusto的CPO Tomer London以及Deel的COO Dan Westgarth。
自推出以来,Finny的收入每月增长150%,目前已有超过40家客户,且近250家经过筛选的公司在等待名单上。Finny通过订阅和成功费用实现盈利,自Y Combinator展示日以来,收入已翻倍。虽然最初主要针对独立财务顾问,但Finny最近注意到市场向银行方向转移,预示着这一领域也有巨大的机会。
未来,Finny计划利用新的资金扩大工程团队,并进一步提升产品能力。目前,Finny的竞争对手包括ZoomInfo、LinkedIn Sales Navigator、Crunchbase和Pitchbook等平台。此外,还有一些市场平台也在匹配客户与顾问,像Farther、Savvy Wealth和Robinhood等。
公司官网:https://www.finnyai.com/
大模型日报(12月12日 资讯篇)
https://techcrunch.com/2024/12/11/yc-backed-finny-helps-financial-advisors-find-new-clients/
03

Lumen Orbit成功筹集1100万美元种子轮资金,吸引200多家风投关注

Lumen Orbit是一家致力于在太空中建立数据中心的初创公司,近期完成了1100万美元的种子轮融资,估值达到4000万美元。该公司位于华盛顿州的雷德蒙德市,凭借其创新的太空数据中心概念,迅速吸引了包括NFX、Fuse.VC、Soma Capital等多家风投的兴趣,并获得了Andreessen Horowitz、Sequoia等知名风投的支持。NFX的合伙人Morgan Beller将加入Lumen Orbit的董事会。Lumen Orbit的融资成功突显了其作为Y Combinator 2024年夏季批次最受关注的初创公司之一的潜力。

Lumen Orbit的创始人兼CEO Philip Johnston表示,由于投资者需求过于旺盛——超过200家风险投资公司表示有兴趣投资该公司——Lumen Orbit在完成种子轮后,又启动了一个更高估值的SAFE轮融资,以允许更多投资者参与。这家公司成立于2024年1月,仅用几个月时间便获得如此热烈的关注。
Lumen Orbit的核心目标是通过构建太空数据中心,解决地球上数据中心的空间和能源限制。公司的数据中心将通过激光光缆将信息传输回地球,预计将帮助AI公司在不受传统数据中心规模和能源成本限制的情况下扩展。该公司计划在2025年推出一颗演示卫星,包含Nvidia的地面GPU,并在随后的几年内计划每年发射一颗卫星,逐步提升数据中心的能力。
Lumen Orbit的技术不仅能够降低数据中心的运行成本,还能借助太空中的冷环境解决冷却问题,这对于AI公司来说具有巨大的吸引力。创始人Philip Johnston和CTO Ezra Feilden的太空行业经验为这项技术奠定了坚实的基础。通过不断降低卫星发射成本,Lumen Orbit的太空数据中心计划有望在未来十年内实现多吉瓦级计算集群的建设。
公司官网:https://www.lumenorbit.com/
大模型日报(12月12日 资讯篇)
https://techcrunch.com/2024/12/11/200-vcs-wanted-to-get-into-lumen-orbits-11m-seed-round/
04

Microsoft的M12再投资2250万美元支持NeuBird,延续其高速增长势头

NeuBird是一家由Gou Rao和Vinod Jayaraman于2023年底创立的初创公司,致力于利用生成式AI自动化IT站点可靠性工程(SRE)任务。该公司通过其AI工具“Hawkeye”帮助企业迅速识别、诊断并解决问题,从而减少了对人工工程师的依赖,提升了效率。此前,创始人曾将他们的云存储初创公司Portworx以3.7亿美元售出,因此对IT行业有着深刻理解。

NeuBird于2024年4月完成了2200万美元的种子轮融资,估值达到1亿美元。然而,在种子轮融资几个月后,微软的风投基金M12主动联系公司,提出进一步投资。最终,NeuBird成功筹集了2250万美元的种子轮扩展资金,由M12领投,Mayfield、Stepstone Group和Prosperity7 Ventures也参与了此次融资。
此次扩展融资并不寻常,通常扩展轮融资是为了解决增长放缓的问题,但NeuBird的高增长势头令投资者异常看好。NeuBird的CEO Rao表示,公司选择将这轮融资称为“Seed-1”,以便在未来筹集更大的A轮资金。此外,本轮融资的估值较之前的种子轮大幅上升。
NeuBird的AI系统Hawkeye已被包括大型汽车制造公司、金融机构和制药公司等在内的多个客户采用,甚至一些员工仅为30人的小型初创公司也正在使用其服务。Hawkeye通过读取系统日志,检查是否有异常或错误,从而帮助客户解决潜在的IT问题。公司特别注重数据安全,Hawkeye以只读模式访问系统,避免存储任何客户的敏感数据。
尽管市场上已有其他公司如SRE.ai、Opslane等在尝试解决相似问题,但NeuBird凭借其AI驱动的高效解决方案和持续获得的投资,已成为业内备受瞩目的新兴力量。
公司官网:https://neubird.ai/
大模型日报(12月12日 资讯篇)
https://techcrunch.com/2024/12/11/microsofts-m12-invests-another-22-5m-into-nuebird-months-after-its-22m-seed-round/



推荐阅读

— END —

1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/25700.html

Like (0)
Previous 2024-12-12 18:15
Next 2024-12-13 17:04

相关推荐