大模型日报（5月15日资讯篇）

特别活动

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

谷歌反击OpenAI！连夜发布十几款新品，喊了121次AI，最新长文本模型问鼎全球最强

不出预料，谷歌是被 OpenAI 狙击了。一连串烟雾弹后，昨天 OpenAI 用一个可以看到、听到真实世界，并可以实时无延迟对话的 AI 智能助手“GPT-4o”震撼世界。而把发布 4o 的时间点特别选在谷歌 I/O 大会开幕前一天，当时就有媒体预测，OpenAI 这是在狙击谷歌。果不其然，北京时间5月15日凌晨，谷歌I/O开发者大会主题演讲上，谷歌CEO桑达尔·皮查伊（Sundar Pichai）发布数十款Google和 AI 结合产品，堪称“全家桶”级别，全力对战OpenAI。其中包括支持200万token长文本的Gemini 1.5 Pro和 Gemini 1.5 Flash、谷歌版Sora技术Veo，最强开源模型Gemma 2，支持生成式搜索的AI Overviews、第六代TPU等。但最受关注的，还是谷歌DeepMind CEO、谷歌 AI 负责人Demis Hassabis公布的真正通向 AGI 的万能助手项目Project Astra，以及语音NotebookLM，直接对标GPT-4o。这场110分钟演讲中，皮查伊提及 AI 的次数竟然高达121次（谷歌自己的统计）。

https://mp.weixin.qq.com/s/hgm-5vIHjRO9y54qShwpwQ

OpenAI 联合创始人兼首席科学家 Ilya Sutskever 宣布离职，将在未来分享新项目细节

OpenAI 联合创始人兼首席科学家 Ilya Sutskever 今早在 X 发布推文，正式宣布离开 OpenAI。Ilya Sutskever 为前 OpenAI 董事会成员，曾推动罢免 OpenAI CEO 阿尔特曼 Sam Altman 的行动。

https://mp.weixin.qq.com/s/D6WxVBFj_ERzgurA1fP8qA

字节跳动发布豆包大模型，主力模型比行业价格低99.3%

5月15日，字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎总裁谭待介绍，经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，目前日均处理1200亿Tokens文本，生成3000万张图片。

https://www.leiphone.com/category/ai/2grULrhwxoRnYs1G.html

OPPO、vivo、荣耀、小米、三星、华硕、字节跳动成立智能终端大模型联盟

在今日的字节跳动 2024 春季火山引擎 Force 原动力大会上，火山引擎与 OPPO、vivo、荣耀、小米、三星、华硕宣布成立智能终端大模型联盟。

https://www.ithome.com/0/768/053.htm

Veo-谷歌推出的可生成1分钟1080P的视频模型

Veo是由Google DeepMind开发的一款视频生成模型，用户可以通过文本、图像或视频提示来指导其生成所需的视频内容，能够生成时长超过一分钟1080P分辨率的高质量视频。Veo拥有对自然语言的深入理解，能够准确捕捉和执行各种电影制作术语和效果，如延时摄影或航拍镜头。Veo生成的视频不仅在视觉上更加连贯一致，而且在人物、动物和物体的动作表现上也更加逼真。Veo的开发旨在使视频制作更加普及，无论是专业电影制作人、新兴创作者还是教育工作者，都能够利用这一工具来探索新的叙事和教学方式。

https://deepmind.google/technologies/veo/

多功能RNA分析，百度团队基于Transformer的RNA语言模型登Nature子刊

预训练语言模型在分析核苷酸序列方面显示出了良好的前景，但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。百度大数据实验室（Big Data Lab，BDL）和上海交通大学团队开发了 RNAErnie，一种基于 Transformer 架构，以 RNA 为中心的预训练模型。研究人员用七个数据集和五个任务评估了模型，证明了 RNAErnie 在监督和无监督学习方面的优越性。RNAErnie 超越了基线，分类准确率提高了 1.8%，交互预测准确率提高了 2.2%，结构预测 F1 得分提高了 3.3%，展现了它的稳健性和适应性。

https://mp.weixin.qq.com/s/waafWP5zaxFO9auH8k_t_A

推特

TechCrunch“总结GoogleIO演讲要点”引爆笑，评论区：谢谢你，屎一样的总结，现在我什么也没错过了

TechCrunch：如果你错过了今天的 #GoogleIO 主题演讲，我们为你总结了要点。

马斯克：👌

https://twitter.com/TechCrunch/status/1790504691945898300

Altman谈Ilya离开：这让我非常难过，Ilya 绝对是我们这一代最伟大的思想家之一

Ilya 和 OpenAI 将要分道扬镳。这让我感到非常难过；Ilya 绝对是我们这一代最伟大的思想家之一，是我们领域的指路明灯，也是我亲爱的朋友。他的才华和远见是众所周知的；他的温暖和同情心不那么为人所知，但同样重要。

没有他，OpenAI 就不会是今天的样子。虽然他要去从事一些对他个人意义重大的工作，但我永远感激他在这里所做的一切，并承诺完成我们共同开始的使命。我很高兴这么长时间以来，我能够亲近这样一位真正杰出的天才，以及一个如此专注于为人类争取最佳未来的人。

Jakub 将成为我们的新任首席科学家。Jakub 同样是我们这一代最伟大的思想家之一；我很高兴他在这里接过了接力棒。他领导了我们许多最重要的项目，我非常有信心他将带领我们快速、安全地向确保 AGI 造福所有人的使命迈进。

https://x.com/sama/status/1790518031640347056

Jim Fan谈Google I/O的一些想法：谷歌做对了一件事：他们终于在搜索框中认真地整合 AI

Google I/O。一些想法：模型似乎是多模态输入，但不是多模态输出。Imagen-3 和音乐生成模型仍然作为独立组件与 Gemini 分离。将所有模态输入/输出本地化合并是不可避免的未来：

使任务如“使用更机器人化的声音”、“说话速度加倍”、“迭代编辑这张图片”和“生成一致的漫画条”成为可能。
不会在模态边界上丢失信息，例如情感和背景声音。
开启新的上下文能力。你可以通过少量示例教模型以新颖的方式结合不同的感官。

GPT-4o 并不完美，但它在形式上是正确的。用 Andrej 的“大型语言模型作为操作系统”类比来说：我们需要模型本地支持尽可能多的文件扩展名。

谷歌做对了一件事：他们终于在搜索框中认真地整合 AI。我感觉到智能代理的流程：计划、实时浏览和多模态输入，全部从登陆页面开始。谷歌最强的护城河是分发。Gemini 不必是最好的模型，也可以成为世界上使用最广泛的模型。

https://x.com/DrJimFan/status/1790441325386760230

SkalskiP分享足球AI更新：图像嵌入、降维、球员聚类、精彩的可视化

将我的足球 AI 提升到一个新的水平

图像嵌入
降维
球员聚类
精彩的可视化

代码: https://github.com/roboflow/sports (代码迁移中…)

↓ 阅读更多

https://x.com/skalskip92/status/1790426684648214595

huggingface-langchain：新的开源包，无缝集成HuggingFace模型到LangChain AI

我们很高兴地宣布 huggingface-langchain🚀 这是一个新的开源包，可以无缝集成来自 @huggingface 的最新开放模型到 @LangChainAI 中，支持本地和托管模型！🤗🦜

简短说明：

🛠️ 简单安装：通过简单的 pip install langchain-huggingface 安装。

🚪 开放模型：轻松访问开放的 LLM 和嵌入模型。

🌐 灵活性：通过 API、推理端点或自托管文本生成推理来利用 Hugging Face 模型。

💬 聊天模型：使用 ChatHuggingFace 支持对话模型。

🧠 嵌入：利用句子转换器嵌入模型，可以本地或通过 Hugging Face 端点进行。

🏎️ 快速集成：可以直接使用 from_model_id 方法加载模型或手动定义管道。

立即开始：https://huggingface.co/blog/langchain

https://x.com/_philschmid/status/1790419788931416466

ElevenLabs 配音 API推出：任何人都可以添加音频视频翻译的同时保留特征

我们很高兴地推出 ElevenLabs 配音 API——使任何开发者都能够在其产品中添加音频或视频翻译，同时保留原始说话者声音的独特特征。

https://x.com/elevenlabsio/status/1790397801194471732

Gary Marcus分享GPT-4o 热评：合成效果非常棒，但是……

GPT-4o 热评：

语音合成效果非常棒，让我想起了从未真正起飞的 Google Duplex。

但是，

如果 OpenAI 有 GPT-5，他们会展示出来。
经过 14 个月的努力，他们还没有 GPT-5。
博客文章中最重要的图表附在下面。图表中最重要的一点是，4o 与 Turbo 的区别不大，而 Turbo 与 4 的区别也不大。
已经报告了许多古怪的错误，一如既往。（参见例如 @RosenzweigJane 和 @benjaminjriley 的示例。）
OpenAI 可能已经转向新功能，因为他们不知道如何实现“指数级改进”所预测的那种能力提升。
最重要的是，每一天没有 GPT-5 级别模型的出现——无论是来自 OpenAI 还是他们资金充足、动力十足的竞争对手——都证明我们可能已经进入了收益递减的阶段。

https://x.com/GaryMarcus/status/1790122337058119725

继GPT4o之后，hume ai发布了一个交互式AI博客的产品

EVI 刚刚成为唯一能够进行本地网页搜索的语音 API。为了庆祝这一成就，我们推出了 Chatter，第一个互动 AI 播客 →https://chatter.hume.ai

https://twitter.com/hume_ai/status/1790469055226183771

产品

Wegic

Wegic 是一款由 GPT-4o AI 模型驱动的网页设计和开发助手，能够通过简单的对话帮助用户轻松创建和修改网站。它集成了 OpenAI 的先进技术，可以理解用户需求并生成合适的文本、图像等内容，支持多种语言，让网页设计和发布变得像与朋友聊天一样自然流畅。

https://wegic.ai/

Fynk

fynk 是一个基于AI的全面合同管理平台，旨在帮助企业简化合同流程。它提供了从合同创建、审批、协作谈判到电子签署的全流程管理功能，并利用 AI 技术提供智能合同分析和自动化工作流程等功能。f

https://fynk.com/en/ai-contract-analysis/

SaveDay

Saveday 是一款智能知识管理移动应用程序，让用户能够即时总结文章和视频内容，并将各种类型的信息保存到个人知识中心。它提供快速搜索和问答功能，让用户轻松找到所需的知识和见解。该应用旨在帮助用户更好地管理信息过载，并高效地获取个人所掌握的知识

https://www.save.day/mobile-app

投融资

TheoriqAI 完成 620 万美元超级种子轮融资，由 Hack VC 领投

TheoriqAI，一家 moduler AI 代理基础设施公司，于 5 月 14 日在 X 平台宣布完成了 620 万美元的超级种子轮融资。Hack VC 领投，Foresight Ventures、HTX Ventures、Figment Capital、HASH CIB、Inception Capital、Antalpha Ventures、NewTribe Capital、Stateless Ventures、Bitscale Capital、Construct Ventures、Hypersphere、IOSG Ventures、LongHash Ventures、HashKey Capital、SNZ Holding、Chainlink 等机构参与投资。

公司官网：https://www.theoriq.ai/

https://www.bitget.com/news/detail/12560603999870

Highperformr 完成 350 万美元种子轮融资

位于特拉华州威尔明顿的 GenAI 创业公司 Highperformr 宣布完成 350 万美元的种子轮融资。此轮融资由 Venture Highway 领投，Neon、DeVC 及天使投资者参与。公司计划利用资金进行研发，进一步发展其原生 AI 能力，并构建分销网络。Highperformr 提供社交 AI 平台，帮助企业增强社交媒体上的回报率，提升社交存在感并促进有意义的互动。其社交存在平台“Highperformr for Teams”旨在帮助 B2B 公司简化社交媒体工作流程，支持社交发布、调度和跨发布，团队协作并具备审批工作流程，通过员工倡导建立品牌，进行社交销售以及基于社交 AI 的分析和洞察力。公司在印度设有办事处。

公司官网：https://www.highperformr.ai/

https://www.highperformr.ai/blog/announcing-our-seed-funding-of-3-5million-and-the-launch-of-our-first-product

瑞典 Grasp 融资 170 万欧元，用于扩展金融行业 AI 助手

Grasp 是全球首个面向投资银行和管理咨询公司的 AI 助手之一，现向 Yanno Capital 和 Philian Invest 发行价值 170 万欧元的新股份，两者合计持有不到 13% 的股权。此次投资将用于加速 Grasp 的 AI 平台开发并继续全球扩张。Grasp 利用自主研发的生成式 AI 和语言模型来简化投资银行家和管理咨询师目前进行的复杂耗时任务。全球每年在这些服务上的支出达 1.4 万亿美元，随着 AI 能力的提升，行业预计将在未来几年发生重大变化。

公司官网：https://www.grasp-ai.com/

https://www.eu-startups.com/2024/05/stockholm-based-grasp-raises-e1-7-million-for-expansion-of-its-ai-assistant-for-the-finance-industry/