大模型日报（4月18日资讯篇）

欢迎观看大模型日报，进入大模型日报群和空间站（活动录屏复盘聚集地）请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

推特

波士顿动力公司最新 Atlas 机器人：专为实际应用设计的全电动 Atlas 机器人

波士顿动力公司刚刚推出了他们最新的 Atlas 机器人。这不是渲染图。我的天啊,它带来了”叫救护车…但不是为了我”的感觉。

https://youtu.be/29ECwExc-_M?si=4Sk3KycwS3fp9kbd

全新 Atlas | 波士顿动力公司

我们正在推出下一代人形机器人–一款专为实际应用设计的全电动 Atlas 机器人。新的 Atlas 建立在数十年的研究基础之上,进一步践行我们的承诺,即提供能力最强、最实用的移动机器人,解决当今工业界最棘手的挑战:通过 Spot、Stretch,现在还有 Atlas。敬请关注,看看世界上最具活力的人形机器人到底能做什么–在实验室、工厂和我们的生活中。

https://x.com/MKBHD/status/1780603681161031840

Stable Diffusion 3和 Stable Diffusion 3 Turbo API 发布

今天,我们很高兴地宣布 Stable Diffusion 3 和 Stable Diffusion 3 Turbo 在 Stability AI 开发者平台 API 上的可用性。

我们与市场上最快、最可靠的 API 平台 @FireworksAI_HQ 合作,提供这些模型。

为了履行我们对开放生成式 AI 的承诺,我们的目标是在不久的将来通过 Stability AI 会员资格提供模型权重供自托管使用。

你可以从这里开始并了解更多:

https://bit.ly/3W43FjY

提示:在山顶上的一位巫师的精彩艺术作品,他正在用魔法创造大字”Stable Diffusion 3 API”,魔法文字,在黎明,日出时分。

https://x.com/StabilityAI/status/1780599024707596508

Mixtral 8x22B 模型发布：SMoE模型，只使用39B 活跃参数，成本效益更佳

除了发布我们的 Mixtral 8x22B 模型,我们还发布了我们的分词器,它们不仅仅是通常的文本到令牌的转换,还增加了对工具和结构化对话的解析。

仓库:

https://github.com/mistralai/mistral-common

指南:

https://t.co/gnfEz1PYFj

Mixtral 8x22B 是我们最新的开放模型。它在AI社区内为性能和效率设立了新标准。它是一个稀疏的专家混合(SMoE)模型,在 141B 参数中只使用了 39B 的活跃参数,以其规模提供了无与伦比的成本效益。

Mixtral 8x22B 具有以下优势:

它精通英语、法语、意大利语、德语和西班牙语

它具有强大的数学和编程能力

它原生支持函数调用;再加上在 la Plateforme 上实现的约束输出模式,这使得大规模应用程序开发和技术堆栈现代化成为可能

其 64K tokens 的上下文窗口允许从大型文档中精确回忆信息

https://x.com/MistralAILabs/status/1780606904273702932

微软研究院公布 VASA-1：只需一张肖像照片和语音音频，生成精妙面部视频

第一个看起来超级真实的 AI 生成视频

微软研究院公布了 VASA-1。

它只需一张肖像照片和语音音频,就能实时生成一段超逼真的会说话的面部视频,具有精准的唇音同步、栩栩如生的面部行为和自然的头部动作。

考虑到 AI 生成的视频看起来非常真实,这真是令人惊叹!

当然,这些例子可能是精心挑选的,但仍然令人惊叹。

我最喜欢这项技术的用例是利用它在新电影中复活像 Cary Grant 这样的老演员 :)

https://x.com/bindureddy/status/1780737428715950460

Lingo-2穿越伦敦市中心视频：在道路上导航并讲述其旅程

见识一下 Lingo-2,这是一个突破性的 AI 模型,能够在道路上导航并讲述其旅程。观看这段从 LINGO-2 驾车穿越伦敦市中心拍摄的视频。同一个深度学习模型生成实时驾驶评论并驾驶汽车。

https://x.com/wayve_ai/status/1780507048884531548

Chris分享使用Gazelle生成的500 毫秒延迟超快AI语音聊天

介绍一下:全球最快的 AI 语音聊天–500 毫秒延迟,在本地运行,比其他任何人都快 2 倍。

这个演示使用了 Gazelle,这是世界上第一个具有直接音频输入的公共语言模型(LLM)。通过跳过转录解码,我们节省了时间,可以直接对语音进行操作–包括语调、语气、情感等。

之后,就是常规的优化工作–我们的实现非常接近甚至达到了多模态语言模型推理的最新水平,接近理论最大值。使用 H100,我们预计这种体验会小于 300 毫秒–低于人类反应时间!

我建立并研究了万亿级规模的基础设施。性能的首要经验总是先减少差异–更简单、组件更少的架构总是会胜出。ASR-LLM-TTS 级联系统永远不会成为可行的解决方案。

显然,这个特定的模型训练不足,还有很大的改进空间,但我非常确信这就是语音AI的未来。如果拥有真正实时且富有同理心的聊天,你会用它做什么?

https://x.com/hingeloss/status/1780718391461925049

OpenAI Assistants API更新：新的文件搜索工具，快速集成知识检索

介绍一系列对 Assistants API 的更新 🧵

有了新的文件搜索工具,您可以快速集成知识检索,现在每个助手最多允许 10,000 个文件。它与我们新的向量存储对象一起工作,用于自动文件解析、分块和嵌入。

https://x.com/OpenAIDevs/status/1780640119890047475

Greg Kamradt分析OpenAI新助手RAG详细信息：默认分块重叠率为 50%，非常有趣

关于 @OpenAI 新助手 RAG 的详细信息

慢慢进入向量存储领域

我的想法:

默认分块重叠率为 50%,非常有趣
元数据过滤,它如何涉足向量存储领域非常有趣
不确定他们使用的是什么分块方法–800 tokens 字符分割器?递归式?语义?
支持 CSV 检索,这很难!很酷
暗示针对问答类型(摘要)的替代方法路由

检索设置:

查询扩展(优化用户查询)
多查询(一个查询 > 多个搜索)
混合搜索(关键字 + 语义)
重新排序

很有趣看到他们在 v1 中包含了什么,以预测 gpt-5 将涵盖的内容

https://x.com/GregKamradt/status/1780668006705828245

资讯

Meta无限长文本大模型来了：参数仅7B，已开源

Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力和状态空间模型等次二次解决方案，但从以往的经验来看，它们在预训练效率和下游任务准确性方面表现不佳。长文本是大语言模型一直在努力的方向。近日，谷歌提出的 Infini-Transformer 引入有效方法，可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入，而不增加内存和计算需求，吸引了人们的关注。几乎就在同时，Meta 也提出了一种无限长文本技术。

https://mp.weixin.qq.com/s/VML5hExo5iPsyEavxzIZSA

无向图最小割问题取得新突破，谷歌研究获SODA 2024最佳论文奖

1996 年，美国计算机科学家 David R Karger 连同其他研究者在论文《 A new approach to the minimum cut problem》中提出了一个令人惊讶的随机算法 Karger 算法，其在理论计算机科学中非常重要，尤其适用于大规模图的近似最小割问题。Karger 算法可以在时间为 O (m log^3n) 的图中找到一个最小割点，他们将这个时间称之为近线性时间，意思是线性乘以一个多对数因子。在谷歌刚刚更新的一篇博客中，他们介绍了之前发布的一篇论文《 Deterministic Near-Linear Time Minimum Cut in Weighted Graphs 》，研究获得了 ACM-SIAM SODA24 最佳论文奖。文章详细阐述了一个几乎是线性时间内（而不是近线性时间）运行的新算法，这个算法是确定性的，能够可靠地找到正确的最小割，改进了之前可能无法保证结果正确或只适用于简单图的算法。可以说这是自 Karger 著名的随机化算法以来的重大发现。

https://mp.weixin.qq.com/s/vmGmiYS5yqJUNkHysVIO1A

让玩家全程掌控游戏：自然语言指令驱动的游戏引擎到来了

对于每一位热爱打游戏的人而言，都曾经想过这样一个问题，「这游戏要是我来做就好了！」可惜的是，游戏开发有很高的门槛，需要专业的编程技巧。近日，来自上海交大的团队开展了一个名为「Instruction-Driven Game Engine, IDGE」的项目，他们针对未来游戏的开发，提出了一个酷炫的新范式：利用自然语言指令开发游戏，玩家说怎么玩就怎么玩，让 UGC 贯穿于游戏的每个角落。IDGE 顾名思义，是一个指令驱动型的新概念「游戏引擎」，它能够支持用户输入对游戏规则的自然语言描述，来自动生成一个「玩家专属」的游戏。

https://mp.weixin.qq.com/s/YPPm1lcOo_Ql41Pz9TlWkA

比人脑快20000%，内置1152颗7nm芯片，全球最大神经拟态系统诞生

美国芯片巨头英特尔（Intel）宣布，其打造出全球最大的神经拟态系统——Hala Point，旨在支持未来类脑 AI 研究，以及解决 AI 目前在效率和可持续性等方面的挑战。Hala Point内置1152个、基于Intel 4（7nm）制程的英特尔Loihi 2处理器，支持多达11.5亿个神经元和1280亿个突触，每秒可处理超过380万亿个8位突触和超过 240 万亿个神经元操作，相关系统最初部署在美国桑迪亚国家实验室。应用于仿生尖峰神经网络模型时，在运行神经元数量较低的情况下，Hala Point速度可比人脑快200倍（20000%）。

https://www.tmtpost.com/7044204.html

金融独角兽 Ramp 宣布从 Khosla、Founders Fund 及红杉筹集 1.5 亿美元用于收购 AI 初创公司

每家公司都代表着一个复杂的资金流入和流出网络。对于许多企业来说，管理公司的费用账户可能会被千刀万剐。例如，平均公司每年仅在 SaaS 订阅上花费34.3 万美元。管理数以万计的费用可能很平常，但它是人们必须管理的任何业务中始终存在的一部分，并且费用管理的复杂性可能会产生大量时间和金钱方面的低效成本。软件已成为管理金融服务不可或缺的一部分。在 2021 年的一项调查中，88%的美国受访者表示他们使用技术来管理财务，这比 2020 年的 58% 显着增加。同时，费用管理软件市场在 2021 年估值为60 亿美元。2022 年公司卡支出将达到1.5 万亿美元。Ramp 是一家金融科技公司，提供一套产品设计来自动化公司财务运营，包括公司卡、费用管理软件、账单支付和供应商管理。Ramp 的公司卡为企业提供无限卡、智能支出政策和支出可视性。Ramp 还提供费用管理软件，可自动收集收据和费用报告；该软件旨在通过消除手动跟踪费用的需要来帮助企业节省时间和金钱。Ramp 近期以 76.5 亿美元的估值筹集了 1.5 亿美元，这轮融资由新投资者 Khosla Ventures 和现有支持者 Founders Fund 共同领投，新投资者包括 Sequoia Capital、Greylock 和 8VC，其他现有投资者包括 Thrive Capital、General Catalyst、Sands Capital、D1 Capital、Lux Capital、Iconiq Capital、Definition Capital、Contrary Capital。

https://mp.weixin.qq.com/s/InIpqr-vqru8aHRaSZWFng

172个机构合作，发现奇异粒子，机器学习分析约1.6亿次粒子碰撞数据

粒子物理学家的任务是挖掘大量不断增长的碰撞数据，寻找尚未发现的粒子证据。特别是，他们正在寻找未包含在粒子物理标准模型中的粒子，科学家怀疑我们目前对宇宙构成的理解是不完整的。近日，来自 ATLAS 合作组的 172 个研究机构的科学家，使用一种受大脑启发的机器学习算法——神经网络，来筛选大量粒子碰撞数据，搜索数据中的异常特征或异常现象。研究团队使用一种称为异常检测的机器学习方法来分析大量 ATLAS 数据。此前该方法从未应用于对撞机实验的数据。神经网络发现了一个异常现象。能量约为 4.8 太电子伏（TeV）的奇异粒子衰变会产生 μ 子和其他粒子射流，其方式不符合神经网络对标准模型相互作用的理解。该技术打破了寻找新物理学的传统方法。它独立于科学家的先入之见，因此不受其限制。

https://mp.weixin.qq.com/s/JUqeXEr7mafciSV0djKPGQ

Mobileye创始人投身机器人项目产品沉寂两年首次曝光

初创公司Mentee Robotics展示了旗下首款人形机器人的原型Menteebot，号称在所有操作层都接入了AI，是“可以被指导的”个性化AI机器人。

https://www.cls.cn/detail/1650454

AI芯片需求继续强劲！台积电Q1净利润一年来首次增长

4月18日周四，台积电公布截至3月31日的2024年一季度业绩报告。财报显示，台积电一季度净利润为2255亿元台币（约合69.76亿美元），预估2149.1亿元台币，同比增长8.9%，创下一年多以来最快增速；第一季度销售额5926.4亿元台币（约合183.33亿美元），同比增长17%，预估5834.6亿元台币。第一季度营业利润2490.2亿元台币（约合77亿美元），同比增长7.7%，预估2408.7亿元台币。

https://wallstreetcn.com/articles/3713024

钉钉上线AI助理市场，200+AI助理覆盖办公、生活与娱乐场景

钉钉正式上线AI助理市场（AI Agent Store），首批将推出超过200个AI助理，覆盖企业服务、行业应用、效率工具、财税法务、教育学习、生活娱乐等类目，用友、携程商旅、墨见Molook等各领域SaaS企业已上架AI助理，加入钉钉AI生态。

https://www.thecover.cn/news/MAMKXd9r1umH90qSdq8Jkw==

产品

SpeedLegal

SpeedLegal 是一个由 AI 驱动的法律助手，帮助银行在几分钟内理解合同。它可以帮助用户以三倍速度审阅合同，立即识别潜在风险，并以信心更好地协商条款，从而节省数千美元的法律费用。SpeedLegal 还适用于各种规模的初创企业、忙碌的专业人士以及任何希望在没有法学学位的情况下理解合同的人群。

https://speedlegal.io/

Collato AI Notetaker

AI Notetaker 是 Collato 公司推出的一款 AI 工具，帮助用户在会议中轻松记录笔记。用户可以通过邀请 ally@collato.com 参加会议，AI Notetaker 将自动录制视频并生成会议记录，用户还可以通过添加或上传补充笔记、截图或手写笔记来完善会议记录。此外，用户还可以通过选择模板将记录转化为专业格式的文档。

https://collato.com/

投融资

FPGA芯片公司「芯璐科技」完成3000万种子轮融资

芯璐科技，一家专注于FPGA芯片的公司，宣布完成3000万人民币的种子轮融资，由成为资本领投。此轮融资将用于FPGA架构验证流片。公司自研的ArkAngel开发引擎和EDA软件工具，采用数字化设计流程，提高产品市场进入速度，降低成本。目前，芯璐科技已连续打破FPGA行业流片速度记录，且已启动新一轮上亿元人民币的融资计划。

公司官网：https://rapidflex.cn/

https://news.pedaily.cn/202306/514885.shtml

Microchip Technology 收购 Neuronix AI Labs

Microchip Technology 宣布收购 Neuronix AI Labs，以扩大其在FPGA领域部署的节能、AI驱动的边缘解决方案的能力。此次收购将加强Microchip在低功耗FPGA和SoC上的功率效率，提高其在智能边缘系统中使用AI/ML算法的性能。Neuronix AI Labs 提供的神经网络稀疏优化技术，能够在保持高精度的同时，减少功率、尺寸和计算需求。这一技术与Microchip现有的软件设计套件相结合，允许在FPGA上实现AI/ML算法，无需深入了解FPGA设计流程。

公司官网：https://www.neuronix.ai/

https://finance.yahoo.com/news/microchip-technology-acquires-neuronix-ai-120200243.html

NeuBird 开发针对复杂云原生环境的生成式AI解决方案

NeuBird，一家初创公司，专注于生成式AI解决方案，旨在帮助工程师更快解决复杂云环境中的问题。公司由Goutham Rao和Vinod Jayaraman创立，这两位创始人此前创办的Portworx被PureStorage以3.7亿美元收购。NeuBird最近宣布获得Mayfield的2200万美元投资，用于将其产品推向市场。这笔资金将帮助公司开发数字助理，协助SRE和IT运维工程师快速诊断和解决问题，从而将事件响应时间从小时缩短到分钟。

公司官网：https://neubird.ai/

https://techcrunch.com/2024/04/17/neubird-generative-ai-solution-for-complex-cloud-environments-raises-22-million/

Mobileye创始人推出新型人形机器人

由Mobileye创始人Amnon Shashua共同创办的Mentee Robotics，近期展示了其人形机器人Menteebot的原型。该公司成立于2022年末，目前已经获得了由Ahren Innovation Capital领投的1700万美元投资。Menteebot设计用于执行家庭和工业任务，利用大型语言模型（LLM）解读命令并规划完成任务的步骤。Mentee Robotics计划在2025年初推出生产就绪的原型。

公司官网：https://www.menteebot.com/