大模型日报（5月17日资讯篇）

特别活动

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

OpenAI 官宣与 Reddit 合作：实时引用贴文内容、改进文章理解方式

Reddit 和 OpenAI 今天发布新闻稿宣布建立“合作伙伴关系”，将 Reddit 的问答内容带入 OpenAI 旗下产品，而 OpenAI 也将成为 Reddit 的广告合作伙伴。

https://www.ithome.com/0/768/585.htm

腾讯称混元大模型部分中文能力已追平GPT-4，支持16s视频生成

腾讯集团副总裁蒋杰在腾讯云生成式AI产业应用峰会上表示，腾讯混元大模型通过持续迭代，目前整体性能已居国内第一梯队，部分中文能力已追平GPT-4。腾讯混元同样支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力，已经支持16s视频生成。在生3D层面，腾讯混元已布局文/图生3D，单图仅需30秒即可生成3D模型。

https://tech.caijing.com.cn/20240517/5012283.shtml

腾讯元器-腾讯推出的智能体创作开发平台

腾讯元器是腾讯公司在腾讯云生成式AI产业应用峰会上推出的一款基于其腾讯混元大模型的AI智能体创作与分发平台，可帮助用户轻松创建和部署智能体，无需编写代码，即可实现聊天对话、内容创作、图像生成等功能的开发和接入。腾讯元器通过提供丰富的预集成插件和知识库资源，大幅降低了智能体的开发门槛，使得企业和开发者能够快速构建并使用智能体。此外，腾讯元器还支持一键分发到腾讯的全域渠道如QQ、微信客服等，为用户提供了便捷的智能体应用体验。目前，腾讯元器已开启免费内测，感兴趣的用户可以前往申请。

https://hunyuan.tencent.com/

云数仓领导者Snowflake欲10亿美元吞下RekaAI 加速布局生成式AI

云数据仓库领域的领导者Snowflake正在谈判以逾10亿美元收购人工智能领域的初创公司Reka AI，进一步扩大这家软件提供商在生成式人工智能功能和应用方面的布局规模。通过此次收购，Snowflake有望整合Reka AI的先进AI模型和技术，全面增强其云数据仓库各项功能，为企业级客户提供更强大的“生成式AI+云数仓”服务。

https://www.zhitongcaijing.com/content/detail/1122389.html

OpenAI：现在你可以实时交互式进行数据分析了

刚刚OpenAI推出数据分析的增强功能，想实时交互式快速分析你的各种数据吗，ChatGPT将帮助你做到。现在，可以直接从 Google Drive 或 Microsoft OneDrive 添加各种文件类型，而无需将文件下载到桌面，然后将其上传到 ChatGPT。这使得 ChatGPT 能够更快地理解的谷歌表格、文档、幻灯片以及微软 Excel、Word 和 PPT文件。

https://mp.weixin.qq.com/s/iLu4Uh-wFIKovcgC9eu1lA

AI版权大战燃起来了！索尼音乐集团全球广发700余封警告信

周四最新消息显示，全球最大的唱片公司之一的索尼音乐集团（Sony Music Group），正在采取行动确保自家的音乐版权不会在AI洪流中被科技公司无情滥用。据悉，索尼音乐已经向全球700多家人工智能公司和流媒体平台发函，警告他们不得在没有获得明确授权的情况下使用索尼音乐的知识产权，用来训练AI模型，并要求他们立刻停止侵权行为。

https://www.cls.cn/detail/1678593

世界最大开源 AI 社区 Hugging Face 将免费提供 1000 万美元共享 GPU，帮助小企业对抗大公司

世界最大的开源 AI 社区 Hugging Face日前宣布，将提供 1000 万美元的免费共享 GPU 帮助开发者创造新的 AI 技术。具体来看，Hugging Face 这次做出此举的目的是帮助小型开发者、研究人员和初创公司对抗大型 AI 公司，避免 AI 进步陷入“集中化”。

https://www.ithome.com/0/768/538.htm

推特

Ruben Hassid分析比较gpt-4o和claude opus性能：gpt-4o大多数测试更好

Ruben Hassid比较了gpt-4o和claude opus的性能。

例子：
测试#1要求总结42页的PDF文档，claude初期表现良好但出现幻觉，而gpt-4o提供了详细且快速的摘要，胜出。
测试#2涉及特定图表分析，gpt-4o提供了详细的描述和结论，格式清晰易读，再次胜出。总体来看，gpt-4o在Ruben的测试中表现优异。

……

gpt-4o在大多数测试中比claude表现更好。

它的速度非常快，并且在文案写作方面表现出色。

但它仍需要改进，需要大量的一次性示例来提升。

在某些测试中，它仍然会撒谎和产生幻觉。

https://x.com/RubenHssd/status/1790762328750723497

Schirano：亿万富翁独立创业者的时代真的已经开始了

Pietro Schirano：

GPT-4o编程能力如此强大，我连续不断地经历着令人难以置信的震撼时刻。

亿万富翁独立创业者的时代真的已经开始了。

https://x.com/skirano/status/1791137966003208440

Invisibility：专用的MacOS Copilot，免费提供！

过去几周我们一直在忙碌。很高兴终于推出Invisibility：专用的MacOS Copilot。由GPT4o、Gemini 1.5 Pro和Claude-3 Opus驱动，现在免费提供 -> @invisibilityinc

新增了一个视频助手，能够无缝吸收上下文。语音 + 长期记忆 + iOS的开发正在进行中。

为与@TyeDan一起走到今天感到无比自豪，我们的开发速度比以往任何时候都快。现在正在扩大我们的团队以实现我们的雄心。如果你有才华和热情，我们欢迎你加入我们！

https://x.com/sulaimanghori/status/1791113392482377833

Jing Yu Koh：关于自回归文本到图像生成模型与扩散模型的感受

上周在ICLR上展示Parti (http://parti.research.google) 时，我至少解释了20次关于自回归文本到图像生成模型与扩散模型的感受。以下是我的看法：

自回归图像生成模型的主要优势在于它们只需预测图像标记，这使得它们可以轻松集成到你的LLM预训练堆栈中。标记输入，标记输出：一切都变成了seq2seq！这也适用于音频（https://google-research.github.io/seanet/audiolm/examples/）的输入和输出。所有模态都变成了离散标记的序列，因此一旦你学会了量化图像/音频的第一阶段，训练就变得容易了。

对于像Google/OpenAI这样的前沿公司来说，从系统的角度来看，这是有优势的，因为现有的基础设施通常已经针对训练基于下一个标记预测的变换器模型进行了超级优化。根据我的经验，训练这些模型也比扩散模型或GANs稳定得多。另一个主要优势是你的模型是一个标准的变换器，你可以使用其他人开发的所有出色的LLM技巧：FlashAttention、投机解码和其他MLsys工具。

其他人指出的一个特点是，这些模型似乎非常擅长文本渲染（如果GPT-4o是这样的模型）。这是很直观的，因为它是一个一个地生成离散块（可以被认为是个别字符的块）。我对Parti在2022年很好地渲染文本的能力也印象深刻。

那么，为什么不是每个人都训练这样的模型呢？一个主要的缺点是你需要学习某种VQ-VAE（https://arxiv.org/abs/1711.00937）来将图像/音频压缩成离散标记。这意味着你的整体生成质量被这个量化器的好坏所限制。如果你搞砸了这个第一阶段，即使你的第二阶段（变换器）很强，也很难生成高质量的图像。以这种方式训练VLMs的另一个缺点是，由于一开始就是多模态模型，可能会使用更多的计算资源（相比于仅在文本数据上训练一个语言模型，在图像上训练一个视觉编码器，然后在最后用一些多模态数据将它们结合起来）。

https://x.com/kohjingyu/status/1791188338008850826

Aman Sanger分享70b模型，使用“投机编辑”的定制推理技术，实现了>1000标记/秒的速度

我们训练了一个70b模型，使用一种名为“投机编辑”的定制推理技术，实现了>1000标记/秒的速度。

它在Cursor中的一个重要任务“快速应用”上表现优于GPT-4o。

我们在博客中详细解释了如何做到这一点：

https://cursor.sh/blog/instant-apply

前沿模型如GPT-4o在大规模编辑上表现不佳，存在懒惰、不准确和高延迟的问题。

这在编码代理中是一个明显的弱点。准确编辑数百行代码可能需要多次模型调用，有时会使代理陷入无限循环。即使是小的、孤立的编辑也会出现错误：

最糟糕的是，现有模型在大规模编辑时速度慢，打断了程序员的工作流。

我们在一个重要版本的全文件代码编辑任务上训练了一个专用模型，称为快速应用。

https://x.com/amanrsanger/status/1790947733899203027

Daniel San分享Gemini-1.5-flash作为VSCode Copilot体验：获取“快速修复”部分的整个上下文

Gemini-1.5-flash作为VSCode中的Copilot简直太棒了！

现在你可以通过将CodeGPT连接到Google AI Studio来使用这个模型。

@codegptAI + @googleaistudio

在这段视频中，我展示了CodeGPT如何获取“快速修复”部分的整个上下文，Gemini提供了一个完整的解决方案，解决了我笔记本中@LangChainAI库的潜在安装错误 🙌

出色的工作，@OfficialLoganK 和整个 @GoogleAI 团队！ 👏

https://x.com/dani_avila7/status/1790864785304641617

产品

Glato AI

Glato AI 是一款利用 AI 技术自动创建视频广告的服务，它可以根据用户提供的产品信息自动生成吸引人的视频脚本，并使用数字克隆的真人创作者拍摄视频，同时自动添加视觉效果，大大提高了视频内容创作的效率和成本效益，为企业和营销人员提供了一个简单易用的解决方案，帮助他们在社交媒体上发布更具吸引力的视频广告。

https://glato.ai/en

Usercall

UserCall 是一款 AI 语音用户访谈工具，可以通过一个简单的链接收集到大量用户反馈，相比传统的问卷调查更加深入和有价值。它使用可定制的 AI 助手进行访谈，能够智能地提出后续问题，挖掘用户的更深层需求。这款工具旨在补充现有的用户研究工作，帮助企业更频繁、更高效地获取优质的用户洞察，适合持续性的产品发现和改进。

https://www.usercall.co/

投融资

爱尔兰金融初创公司Numra融资150万欧元，由Elkstone领投

Numra是一家由David Kearney和Conor Digan于去年创立的金融自动化平台，现已获得150万欧元的融资，以扩大其产品和工程团队，并进军美国市场。Numra平台利用人工智能简化了金融和会计团队的复杂工作流程，如数据录入、对账和错误调查，帮助公司节省时间并减少错误。此轮融资由Elkstone Partners领投，该公司还推出了针对会计团队的AI助手，可通过电子邮件、Microsoft Teams和Slack等平台提高团队生产力。Numra计划利用这笔资金扩大其产品和工程团队，并考虑扩展至美国以扩大业务规模。

公司官网：https://numrahq.com/

https://www.siliconrepublic.com/start-ups/numra-ai-finance-platform-startup-funding-elkstone-jobs-us

Angel AI完成超额认购的种子轮融资，由Cortical Ventures领投

Angel AI宣布完成由Cortical Ventures领投的种子轮融资，金额为475万美元，此轮融资还得到了Village Global和其他多位知名天使投资者的重要参与。Angel AI是一个由家长设计的人工智能平台，为5至12岁的儿童提供年龄适宜的互联网体验。该平台使用最先进的人工智能技术，如大型语言模型、自然语言处理、语音识别和合成，以及带有记忆的基于代理的系统。这项技术允许Angel生成适合儿童问题的年龄适宜答案，提供引人入胜但安全的内容和娱乐，并随着时间的推移学习、个性化和理解儿童。融资将加速Angel AI在招聘、产品开发和营销方面的投资，以及扩大家长和孩子对平台的参与。

公司官网：https://angelkids.ai/

https://www.prnewswire.com/news-releases/angel-ai-raises-4-75-million-in-oversubscribed-seed-round-led-by-cortical-ventures-302147227.html?tc=eml_cleartime

Benchmark支持成立一年的AI法律科技公司Leya，完成1050万美元的种子轮融资

瑞典法律科技初创公司Leya宣布完成1050万美元的种子轮融资，由美国风险投资公司Benchmark领投。这则消息出现在Leya刚刚完成Y Combinator加速器计划几个月后。种子轮融资还得到了伦敦的风投公司Hummingbird和旧金山的SV Angel的参与。Leya是最近推出AI工具简化法律操作的众多初创公司之一。为了脱颖而出，Leya采取了更广泛的AI工具方法，将AI与法律数据库相结合，以简化法律操作。通过这笔资金，公司将继续扩大团队规模并持续投资产品开发。

公司官网：https://www.leya.law/