大模型日报(12月13日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月13日 资讯篇)


资讯

01

NeurIPS神仙打架:李飞飞180页PPT谈视觉智能,Bengio同OpenAI员工吵架,何恺明谈AI宿命论


在今年的NeurIPS会议上,李飞飞围绕视觉智能展开了深入的讨论,并进一步阐述了她对AI未来的展望。她的演讲主题为《从看到到做:攀登视觉智能的阶梯》,探讨了视觉智能的发展路径及其与实际行动的紧密联系。李飞飞指出,智能有不同的复杂度和精密度,解决空间智能问题是迈向全面智能化的关键步骤。她强调,视觉智能不仅仅是感知“看到”,还涉及与环境的互动和实际操作,而这种能力的进步与深度学习和进化过程密切相关。
李飞飞认为,空间智能的发展是解决视觉智能的核心挑战。她提到,世界是三维的,而我们的物理世界和许多虚拟世界都需要三维智能来理解和导航。她举例说明了在生成三维场景时,如何通过深度学习生成细致的3D环境,强调理解三维空间对于AI系统的重要性。
她还提到,虽然三维智能技术仍面临着计算负担和资源瓶颈,但其潜力巨大,能够解锁创造力和生产力,特别是在建筑、医疗和虚拟世界等领域。李飞飞展望,随着技术的进步,AI有望为人类带来更高效的工作方式和全新的体验。
此外,NeurIPS会议期间充满了热议和争议。Bengio与OpenAI成员在因果关系讨论中发生冲突,关于AI代理的潜在风险展开了激烈辩论。Bengio强调,在赋予AI更多自主权之前,必须解决调整和控制问题,以防止AI失控的风险。
另一个话题是何恺明对AI宿命论的探讨,他提出,AI的发展可能是不可避免的,取决于人们对AI角色的信仰。这些讨论让NeurIPS会议充满了激烈的思想碰撞,也为AI的未来发展带来了更多思考。
大模型日报(12月13日 资讯篇)
https://mp.weixin.q‍q.com/s/c39MbjULBW5M_8vdO-VUXQ
02

国产全AI游戏来了?!大模型直出开放世界游戏,有声可交互

AI游戏生成技术今年迎来了新的突破,巨人网络发布了两款创新的大模型“千影 QianYing”,分别是视频生成大模型YingGame和视频配音大模型YingSound。YingGame的亮点在于其能够生成开放世界游戏的视频,无需使用传统的游戏引擎。该模型支持角色多样的动作控制、自定义角色设计,并能精确仿真游戏中的物理规律,例如汽车碰撞、火焰燃烧等。同时,YingGame能够理解多种交互方式,包括文本、图像、鼠标和键盘输入,允许用户与生成的游戏角色进行互动。它还支持第一人称视角,为游戏体验带来了高度沉浸感。
技术上,YingGame采用了多个互动网络模块,结合多模态特征和细粒度角色表征,通过高效的训练数据处理管线,生成能够动态响应用户输入的高质量游戏视频。除了游戏生成,巨人网络还推出了YingSound模型,这一模型专注于视频配音,能够为无声视频生成匹配的音效,精确对齐音频与视频内容,展现了在游戏、动画和真实世界场景中的广泛应用。YingSound不仅支持复杂剧情的音效生成,还能理解视频语义,精准地生成与场景变化匹配的音效。
这两款模型展示了AI在游戏创作中的巨大潜力,尤其是在降低游戏制作门槛、让更多普通人参与游戏创作方面具有革命性影响。通过简短的文字描述,用户可以生成完整的游戏场景,未来,AI可能使得游戏创作的唯一限制只是创作者的想象力。巨人网络的目标是打造一个AI游戏孵化平台,使得任何人都能轻松创作自己的游戏,推动游戏行业的创新与发展。
大模型日报(12月13日 资讯篇)
https://‍mp.weixin.qq.com/s/DeB6t9304gxQmkAI82CrrA
03
元资助

Phi-4:微软最新的小语言模型,专注于复杂推理任务

微软最近推出了Phi-4,一款专为复杂推理任务设计的小型语言模型。Phi-4旨在通过其较小的规模来提升效率,同时仍能有效处理高级的语言理解和推理任务。以下是该模型的技术亮点:
  1. 专注复杂推理任务:Phi-4特别优化了推理能力,能够处理更多涉及深度理解和逻辑推理的问题,提升了处理复杂任务的能力,尤其在推理精度和速度上表现突出。
  2. 效率和小规模优势:与大规模语言模型不同,Phi-4的模型规模较小,能够在较低的计算资源需求下实现较高的性能,适用于资源受限的环境。
  3. 增强的多模态理解:该模型不仅擅长文本推理,还能够处理跨模态的信息流,如文本与图像的组合输入,从而提升对不同类型数据的综合理解能力。
  4. 对话系统的潜力:Phi-4在对话生成方面表现优异,能够支持更复杂的多轮对话和上下文理解,尤其适合在实时交互中使用,如智能助手或客户支持系统。
  5. 与现有模型的互补性:虽然Phi-4是一个较小的模型,但它在多个领域中能够与现有的大型模型协同工作,提供一种更灵活的解决方案,尤其在需要资源高效处理的场景中。
大模型日报(12月13日 资讯篇)
https://techcommunity.microsoft.com/blog/aiplatformblog/introducing-phi-4-microsoft%E2%80%99s-newest-small-language-model-specializing-in-comple/4357090
04
元资助

哈佛与谷歌合作发布100万本公共领域书籍,助力AI训练数据集建设

2024年12月12日,哈佛大学宣布将发布一个包含约100万本公共领域书籍的数据集,旨在为人工智能(AI)模型提供训练数据。这些书籍跨越了多种类型、语言和作者,包括已不再受版权保护的经典作品,如狄更斯、但丁和莎士比亚的作品。此数据集来源于谷歌的长期图书扫描项目——谷歌图书,因此谷歌将在数据集发布中扮演重要角色。
虽然这个数据集目前尚未公开发布,且具体发布的时间和方式尚未确定,但哈佛大学表示,该数据集将通过其“机构数据计划”(IDI)公开。该计划首次在今年3月曝光,目的是为AI提供法律合规的数据通道。此次正式发布的IDI得到了微软和OpenAI的财务支持,预计将大大推动AI技术的普及和发展。
哈佛大学IDI的执行董事格雷格·莱佩特(Greg Leppert)表示,这一数据集将“平衡竞争”,使得从研究实验室到AI初创公司等各类机构能够使用这一庞大的数据集来训练大型语言模型(LLMs)。这项举措不仅有助于推动AI技术的发展,也可能为不同规模的公司和组织提供更多的创新机会。
此次合作不仅推动了AI数据资源的共享,还标志着高校与科技公司在技术发展和数据利用方面更加紧密的合作。
大模型日报(12月13日 资讯篇)
https://techcrunch.com/2024/12/12/harvard-and-google-to-release-1-million-public-domain-books-as-ai-training-dataset/
05
元资助

2024年度AI十大趋势报告

技术层面,大模型创新是2024年的重头戏。新的模型架构不断涌现,如RWKV、Mamba、RetNet等,致力于解决Transformer架构的算力问题,标志着大模型架构进入混合创新时代。与此同时,Scaling Law的泛化推动了推理能力的提升,并加速了计算和数据处理的变革,尤其是像OpenAI的o1模型,成为推理能力突破的典型例子。此外,AGI的探索也在加速,视频生成、世界模型、具身智能和空间智能的技术突破,使得AI离通用智能(AGI)更近一步。
产品层面,AI应用的格局正在经历快速洗牌。AI智能助手已成为国内市场的主流,豆包等产品取得了领先地位,但其他赛道如AI陪伴、AI搜索、AI写作等仍处于竞争和发展阶段,未来将会有更多创新产品涌现。AI+X产品(如AI与办公软件、内容平台的深度融合)表现突出,推动了行业效率的提升,但原生AI爆款产品的出现相对滞后。AI产品趋势呈现出多模态交互和高度个性化的发展,2025年预计将广泛应用AI Agent来实现个性化推荐和服务。
行业层面,AI的渗透已经覆盖多个领域,包括智能驾驶、具身智能、智能硬件、游戏、影视、教育和医疗等。AI在这些行业中的应用有助于提升生产力,重塑行业生态。尤其在智能驾驶和具身智能领域,AI技术与行业需求紧密结合,呈现出强大的成长潜力。
大模型日报(12月13日 资讯篇)
https://mp.weixin.qq.com/s/6pBRLJ_nC6nBs3P334690g
06
元资助

智能驾驶系列:汇川入海,跨域融合成行业新趋势

从分布到集中,域融合大势所趋。整车电子电气架构从分布式走向部分域控,再由域集中走向跨域融合,最终实现中央集中,主要受三大驱动力推动:1)跨域融合方案降低线束、连接器用量,整车BOM物料成本降低;2)各域共享算力、数据资源;3)软硬件解耦开发,丰富智能化创新功能。我们测算,随着高级别智能驾驶应用渗透率提升,国内域控制器市场规模预计于2026年达到1,275亿元。
车企加速布局跨域融合电子电气架构,高算力芯片支撑舱驾融合方案。目前多数新势力已具备跨域融合开发能力,中央计算平台+区域控制的方案逐步落地。座舱域和智驾域算力占用多、功能丰富度高,域融合的探索方案较多。2024年1-10月行泊一体域控配套量达210.4万套,渗透率为11.8%,占智驾跨域控制器总配套数量的80.2%。我们认为舱驾一体发展路径或以舱泊融合、行泊融合为基础,最终实现舱驾融合。在融合形式方面,域融合沿着One-box方案向One-board方案、最终实现One-chip芯片级融合,高算力SoC芯片为跨域融合提供硬件底座。
域融合重塑产业竞争格局。芯片厂、车企、域控供应商之间多种业务模式并存,且随着电子电气架构不断演进,三方合作模式不断动态调整。在域融合发展阶段,软硬件设计复杂度高,开发难度大,整车厂存在差异化域融合诉求。我们认为,拥有突出软硬件开发能力的Tier1有望在竞争中胜出。长期来看,我们看好域控供应商绑定高算力芯片,实现平台化供应。
风险
智能汽车渗透率不及预期、电子电气架构升级进度不及预期、竞争格局恶化导致盈利不及预期。
大模型日报(12月13日 资讯篇)
https://mp.weixin.qq.com/s/NgJ_bw8E-4gDAlnUUufqxw

推特

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

ChatGPT 移动应用中的高级语音功能现已开始推出视频和屏幕共享功能

正值假期来临之际,ChatGPT 移动应用中的高级语音功能现已开始推出视频和屏幕共享功能。

大模型日报(12月13日 资讯篇)

https://x.com/OpenAI/status/1867292997660160061
02 

Deep Research在 Gemini Advanced 中正式推出:您的个人 AI 研究助手

介绍 Deep Research——您的个人 AI 研究助手。从今天起,在 Gemini Advanced 中正式推出。
通过 Deep Research,您可以生成关于复杂主题的深度研究报告,报告附带来源链接,仅需几分钟即可完成数小时的研究工作。
访问 http://gemini.google.com,从 Gemini Advanced 模型下拉菜单中选择 Deep Research 开始体验吧!

大模型日报(12月13日 资讯篇)

https://x.com/GeminiApp/status/1866873306818977945
03

吴恩达分享:AI 对产品管理的帮助

AI 产品管理
AI 产品管理正在快速发展。生成式 AI 和基于 AI 的开发工具的增长为构建 AI 应用带来了大量机会。这使得构建新类型的产品成为可能,同时推动了产品管理最佳实践的转变。产品管理的核心是定义要构建什么以服务用户,而由于技术的变化,产品构建的可能性也随之改变。在这篇文章中,我将分享一些我观察到的最佳实践。
使用具体示例来定义 AI 产品
从具体的想法入手有助于团队快速推进。如果产品经理 (PM) 提议构建“一个可以回答与用户账户相关的银行查询的聊天机器人”,这是一种模糊的描述,容易引发各种想象。例如,聊天机器人是仅回答账户余额相关的问题,还是也包括利率、汇款流程等问题?但是,如果 PM 提供 10 到 50 个具体的对话示例,描述希望聊天机器人执行的任务,其提案的范围就会变得清晰得多。就像机器学习算法需要训练数据一样,AI 产品开发团队也需要明确的示例来说明我们希望 AI 系统完成什么任务。换句话说,数据就是你的 PRD(产品需求文档)!
类似地,如果有人提出“一个用于检测我们商店外行人的视觉系统”,开发者可能难以理解系统的边界条件。例如,系统是否需要在夜间工作?允许的摄像机角度范围是什么?是否需要检测出现在图像中但距离 100 米远的行人?但如果 PM 收集了一些图片并标注了期望的输出,“检测行人”这一要求就变得具体起来。工程师可以评估这个规范是否技术上可行,并在可行的情况下向目标推进。最初,这些数据可能是通过一次性的临时过程获得的,比如 PM 自己四处拍照并进行标注。最终,数据的来源将转向系统在实际运行中收集的真实数据。
使用示例(如输入和期望输出)来定义产品多年来一直很有帮助,但 AI 应用的爆炸式增长使得更多产品经理需要学习这种实践。
通过提示评估基于 LLM 的应用的技术可行性
当 PM 评估一个潜在的 AI 应用时,其技术可行性是决定下一步的重要标准。对于许多基于 LLM 的应用创意,PM 即使不是软件工程师,也可以通过提示(prompting)或编写少量代码,初步评估其可行性。
例如,PM 可能设想一个新的内部工具,用于将客户的电子邮件路由到正确的部门(如客户服务、销售等)。他们可以提示 LLM 来测试其是否能够根据输入的电子邮件选择正确的部门,并观察是否能够实现高准确率。如果可以,这为工程开发提供了一个很好的起点。如果不行,PM 可以自己验证想法并可能更快改进产品创意,而无需依赖工程师构建原型。
有时,测试可行性需要稍微超过简单提示。例如,这个基于 LLM 的电子邮件系统可能需要基本的 RAG(检索增强生成)能力来辅助决策。幸运的是,现在编写少量代码的门槛已经很低,因为 AI 可以作为编码助手来帮助编写代码,正如我在“AI Python for Beginners”课程中所描述的。这意味着 PM 可以在基本层面上进行更多的技术可行性测试,这在以前是难以实现的。
无需工程师即可原型设计和测试
用户对初始原型的反馈对于塑造产品至关重要。幸运的是,快速构建原型的门槛正在降低,PM 可以自己推进基本原型,而无需专业的软件开发人员。
除了使用 LLM 帮助编写原型代码外,像 Replit、Vercel 的 V0、Bolt 和 Anthropic 的 Artifacts(我个人都很喜欢这些工具!)这样的工具正在使没有编码背景的人也能轻松构建和试验简单原型。这些工具对于非技术用户来说越来越容易上手,不过我发现那些了解基础编码的人能够更高效地使用它们,因此学习基础编码仍然很重要。(有趣的是,高技术水平且经验丰富的开发人员也使用这些工具!)我的团队中有许多人经常使用这些工具进行原型设计、获取用户反馈并快速迭代。
AI 正在推动许多新应用的开发,从而大幅增长了对了解如何定义和推动 AI 产品开发的产品经理的需求。在生成式 AI 崛起之前,AI 产品管理就已经存在,但构建应用的日益便捷正在创造更大的 AI 应用需求,因此许多 PM 正在学习 AI 以及这些新兴的 AI 产品开发最佳实践。我对这一领域感到非常着迷,并将继续分享不断发展的最佳实践。
大模型日报(12月13日 资讯篇)
大模型日报(12月13日 资讯篇)
https://x.com/AndrewYNg/status/1867269937397670082
04

Karpathy:最喜欢的大语言模型应用之一是一起读书

我最喜欢的大语言模型(LLMs)应用之一是一起读书。我希望能提问或者听到生成的讨论(类似 NotebookLM 的风格),并且这些讨论能够自动基于周围内容进行调整。如果像亚马逊这样的公司开发出一个“即插即用”的 Kindle AI 阅读器,我认为它会成为一个巨大的成功。
目前,可以通过一些脚本来实现类似的功能。也许已经有人尝试构建一个非常出色的 AI 原生阅读器应用,而我错过了。
大模型日报(12月13日 资讯篇)
https://x.com/karpathy/status/1866896395363553418

产品

01

Tavus 的人工智能圣诞老人 随时随地与圣诞老人进行视频聊天

Tavus 推出的 AI Santa 是一款令人惊叹的节日人工智能体验,能够让您随时随地与圣诞老人进行实时视频互动。通过这一创新技术,您可以用多达 30 种语言与圣诞老人交流,轻松了解自己是“乖巧”还是“淘气”。不仅如此,您还能通过直观的界面与圣诞老人展开趣味互动,按下按钮获取特别的问候或惊喜!这款产品支持快速分叉与部署,几秒钟内即可个性化定制,为您或您的观众打造一场独一无二的节日奇幻体验。无论是个人娱乐、家庭欢聚,还是企业活动,这位 AI 圣诞老人都能为节日增添无穷的欢乐与温馨。
大模型日报(12月13日 资讯篇)
https://santa.tavus.io/?ref=producthunt
02

Growith.app

在将视频内容发布到社交媒体之前,获得全面的测试与优化支持是成功的关键。通过Growith平台,用户可以轻松将视频上传至一个专属的创作者社区,在这里收集真实的反馈和深入的参与度分析。Growith为用户提供详细的数据洞察,帮助您了解视频的受欢迎程度、内容的吸引力以及观众的兴趣点。基于这些数据,用户可以快速调整与优化内容,确保发布的每一条视频都具备高质量和强大的传播力。从初稿到最终发布,Growith都将为用户提供全覆盖的支持与服务。
大模型日报(12月13日 资讯篇)
https://www.growith.app/?ref=producthunt

投融资

01

RapidCanvas获得1600万美元融资,推动AI代理应对技术人才短缺

2024年12月11日,AI初创公司RapidCanvas宣布完成1600万美元的A轮融资。此轮融资由Peak XV领投,Titanium Ventures、Accel和Valley Capital Partners等现有投资者参与。至此,RapidCanvas自成立以来的总融资额超过2350万美元。RapidCanvas的AI代理能够自动化最多75%的复杂任务,尤其是数据科学家和工程师通常需要完成的任务,旨在缓解技术人才短缺问题。该公司通过融合AI和人类专家的能力,打造了一种独特的“服务即软件”(Service-as-Software)模式,极大提高了企业的AI应用效率。
RapidCanvas的AI代理能处理大规模信息,迅速识别模式并做出决策,能在几秒钟内完成传统上需要数天的任务。该平台结合了AI代理与人工专家的优势,能以更低成本、更快速度完成大部分编程任务,从而释放更多技术人才投入到创意和复杂问题解决中。RapidCanvas的模式被广泛应用于数据准备、转化和建模等领域,尤其在编码和数据处理方面显示出巨大的市场潜力。
公司官网:https://www.rapidcanvas.ai/
大模型日报(12月13日 资讯篇)
https://www.rapidcanvas.ai/newsroom/rapidcanvas-gets-16m-as-it-successfully-puts-ai-agents-to-work-addressing-tech-talent-shortage
02
                       

Twelve Labs获得3000万美元融资,推动视频分析AI技术发展

2024年12月12日,视频分析初创公司Twelve Labs宣布完成3000万美元融资,此次资金来自Databricks、Snowflake、SK Telecom、HubSpot Ventures和In-Q-Tel等投资者。此次融资使得Twelve Labs的总融资额达到1.071亿美元。公司计划利用这笔资金加强产品开发,并扩大工程、研究及客户服务团队的招聘。
Twelve Labs致力于开发能够分析和搜索视频内容的人工智能模型。与传统的视频搜索方法不同,Twelve Labs的技术能够帮助用户通过视频中的具体场景、人物、动作等要素进行精确搜索。例如,用户可以查询“红衣服的人什么时候进入餐厅”这样的具体问题,AI能够在海量视频中定位相关的瞬间。这一技术使视频分析不仅限于标签和描述的搜索,而是深入到视频内容本身。
此外,Twelve Labs的产品还支持多模态嵌入(multimodal embeddings),能够同时处理视频、文本、音频等不同类型的数据,广泛应用于广告插入、内容审核、实时威胁检测等场景。公司与Databricks、Snowflake等企业建立了合作关系,将其技术整合到这些平台的服务中。
Twelve Labs表示,未来将继续扩展其技术应用,尤其是在汽车和安全领域,并计划聘请更多的高级人才来加速公司的全球扩展。公司还宣布,SK Telecom前CTO、Siri创始成员金允将加入Twelve Labs担任总裁和首席战略官,负责公司未来的战略规划和全球扩展。
大模型日报(12月13日 资讯篇)
https://techcrunch.com/2024/12/12/twelve-labs-is-building-ai-that-can-analyze-and-search-through-videos/
03

Anybotics融资6000万美元,加速美国市场扩张

瑞士机器人公司Anybotics近日宣布,已完成6000万美元的融资,将其B轮融资总额提升至1.1亿美元。此次追加投资的目的是推动其核心业务的全球扩展,特别是在美国市场的增长。值得注意的是,Anybotics并未将这笔资金称为C轮融资,而是将其视为B轮融资的延伸。

Anybotics成立于2016年,源自苏黎世联邦理工学院(ETH Zurich)。公司开发了一款名为Anymal的四足自主检查机器人,广泛应用于石油、天然气、矿业、电力和金属行业。Anymal配备了多种传感器和摄像头,用于监测工业环境中的设备状况,例如检测热异常或可燃气体的存在。
在过去18个月里,Anybotics的销售业绩显著增长,已经在全球范围内部署了近200台机器人。其客户包括Novelis(铝业回收)、Iamgold(金矿开采)、Stelco(钢铁冶炼)等知名企业,以及斯坦福大学的高级研究应用。
此次B轮融资的投资者包括高通风险投资、Supernova Invest等新投资者,同时Bessemer Venture Partners、诺基亚支持的NGP Capital、瑞士的Swisscanto、瑞士通信公司、TDK Ventures和Walden Catalyst等现有投资者也参与其中。Anybotics表示,未来的C轮融资将关注更广泛的增长,包括拓展其机器人产品的应用场景和行业。
公司官网:https://www.anybotics.com/
大模型日报(12月13日 资讯篇)
https://techcrunch.com/2024/12/12/anybotics-raises-60m-to-scale-autonomous-industrial-robots-in-the-u-s/


推荐阅读

— END —

1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/28894.html

Like (0)
Previous 2024-12-13 18:37
Next 2024-12-14 22:43

相关推荐