大模型日报（5月16日资讯篇）

特别活动

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

李飞飞解读创业方向「空间智能」，让AI真正理解世界

前段时间，路透社独家报道了知名「AI 教母」李飞飞正在创建一家初创公司，并完成了种子轮融资。在介绍这家初创公司时，一位消息人士引用了李飞飞在温哥华 TED 上的一次演讲，表示她在此次 TED 演讲中介绍了空间智能的概念。就在今天，李飞飞在 X 上放出了她在温哥华 TED 上的完整演讲视频。

https://mp.weixin.qq.com/s/okhjWPp0is0ks3e_RvJO4g

大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

在大型语言模型的训练过程中，数据的处理方式至关重要。传统的方法通常通过将大量文档拼接并切分成等同于模型的上下文长度的训练序列。这虽然提高了训练效率，但也常导致文档的不必要截断，损害数据完整性，导致关键的上下文信息丢失，进而影响模型学习到的内容的逻辑连贯性和事实一致性，并使模型更容易产生幻觉。AWS AI Labs 的研究人员针对这一常见的拼接-分块文本处理方式进行了深入研究，发现其严重影响了模型理解上下文连贯性和事实一致性的能力。这不仅影响了模型在下游任务的表现，还增加了产生幻觉的风险。针对这一问题，他们提出了一种创新的文档处理策略——最佳适配打包（Best-fit Packing），通过优化文档组合来消除不必要的文本截断，并显著地提升了模型的性能且减少模型幻觉。这一研究已被ICML 2024接收。

https://mp.weixin.qq.com/s/9iXb_sk0J5kPVUeS3CGhhw

识别细胞也能用大模型了！清华系团队出品，已入选ICML 2024 | 开源

大模型带来的生命科学领域突破，刚刚再传新进展。来自清华系，使用大模型实现了单细胞身份识别，同时模型LangCell也正式对外开源。它不仅可以准确识别细胞身份，还具有很强的零样本分析能力，论文已被ICML 2024录⽤。

https://mp.weixin.qq.com/s/lPTQsaN_kpvcTXtqEyZpPg

微软研究院刘铁岩：AI for Science，憧憬一个人人都可参与科学发现的未来

正处于起步阶段的AI for Science被认为是科学发现的第五范式。尽管目前对于AI for Science的定义和研究方向仍有诸多讨论，但这并不妨碍AI for Science已经开始在科学发现的实践中取得令人瞩目的成果。近年来，微软研究院科学智能中心杰出首席科学家刘铁岩博士和他的团队致力于推动AI for Science的发展和应用。在这篇署名文章中，刘铁岩博士将分享他对人工智能在科学领域关键研究方向的看法，以及对AI for Science未来前景的展望。

https://mp.weixin.qq.com/s/G5iX0pkLIHoCMduWkjN0vA

行业首发多模态大模型辅助视障人士，vivo 看见 App 接入蓝心大模型

vivo 今日宣布，vivo 看见 App 全新升级，接入蓝心大模型，成为行业首款多模态大模型视觉辅助产品。在 vivo 应用商店搜索“vivo 看见”。

https://www.ithome.com/0/768/466.htm

抖音试水AI电商，测试“AI购物小助手”

抖音电商正在测试首款面向C端的AI电商服务“AI购物小助手”。据悉，该业务从去年下半年就开始已着手研发，由上海团队负责，期望能够打造服务亿级用户的AI明星产品，通过AI技术提升用户购买体验以及业务效率。去年年底进行过小范围测试，其算法推荐机制是基于云雀大模型算法。

https://mp.weixin.qq.com/s/LQh8Th51gRq1G8OT22PGtw

推特

奥特曼澄清：新的语音模式尚未推出，目前的是旧版，请期待新版！

另外，为了明确说明：新的语音模式尚未推出（尽管GPT-4o的文本模式已经推出）。你目前在应用中使用的是旧版本。

新的版本非常值得期待！

https://x.com/sama/status/1790817315069771959

GPT-4o也被破解！一张图片劫持ChatGPT，打破几乎所有防御措施

Pliny the Prompter ：

“⛓️💥 监狱破坏警报 ⛓️💥

OPENAI: 被干掉了 🍆

CHATGPT: 解放了 🤟

天啊！！！🙀

只用一张图片就能完全劫持 ChatGPT 的行为，同时打破几乎所有的防护措施。

没有文本提示，没有启用记忆，没有自定义指令，只需要一张图片和原版 gpt-4o。

我生成了一张图片，使用 LSB 隐写技术将越狱提示和多步骤指令编码到图片中，并将图片标题变成一个利用代码解释器的提示注入。就这么简单。

AI 可以在互联网上散布数百万张带有越狱编码的图片，留下隐藏指令的痕迹供潜伏特工执行。真妙！

完整视频：https://youtu.be/aqSW8wszRt4?si=-fABe4d_JUekR8rk

https://x.com/elder_plinius/status/1790879792474009949

Brockman分享GPT-4o生成图片：仅凭 GPT-4o 的图像生成能力就有很多可以探索的内容

GPT-4o 生成的图片——仅凭 GPT-4o 的图像生成能力就有很多可以探索的内容。团队正努力将这些带给全世界。

https://x.com/gdb/status/1790869434174746805

PaliGemma：sota 开源基础 VLM，设计用于快速、轻松且强大地转移到广泛的任务

Lucas Beyer：

我们发布了 PaliGemma。我简短说一下，因为我还在度假：

sota 开源基础 VLM，设计用于快速、轻松且强大地转移到广泛的任务上
也可以进行检测和分割
我们提供了大量示例
技术报告稍后发布！

https://ai.google.dev/gemma/docs/paligemma

https://x.com/giffmana/status/1790444981418676360

OpenGPT-4o：开源可以本地运行的多模态模型！评论：妈妈我们终于有本地多模态模型啦

OpenGPT-4o：一个结合了 Mistral 的 Mixtral、Hugging Face 的 Idefics 和 NVIDIA 的 Streaming STT nemo 的演示。所有模型都是开放访问的，全部免费，并在一小时内创建完成。

公告：https://huggingface.co/posts/KingNish/935677474633200

演示：https://huggingface.co/spaces/KingNish/GPT-4o

Fareesh Vijayarangam评论：

妈妈，我们能有多模态吗？

我们家里已经有多模态了

家里的多模态

https://x.com/osanseviero/status/1790413650689143205

Ashpreet Bedi：11分钟用gpt-4o创建代理

从头开始使用 gpt-4o 的代理 🔥 在 11 分钟内我们将构建：

🌎 网络搜索代理 (2:40)

📈 财务代理 (3:30)

🫡 Hackernews 代理 (5:50)

📊 数据分析代理 (8:10)

🗒️ 研究代理 (9:35)

代码：https://phidata.link/assistants

https://x.com/ashpreetbedi/status/1790790000713310284

Nathan Lambert分享斯坦福CS25讲座：对齐开放语言模型

对齐开放语言模型，这是我在斯坦福 CS25 上的一次讲座

内容涵盖了所有 LLaMA、Alpaca、Open Assistant、QLoRA、解锁 RLHF、Zephyr、Tulu、评估等的历史

YouTube: https://youtube.com/watch?v=AdLgPmcrXwQ

https://x.com/natolambert/status/1790786038971113887

产品

Glitter AI

Glitter AI 是一款简单有效的工具，可以通过录制语音和屏幕来自动生成教程和操作指南。旨在帮助忙碌的工作人员和内容创作者更快捷高效地记录和分享各种流程，而无需长时间录制视频或手动编写文档。

https://www.glitter.io/

Jovu

Jovu 是 Amplication 公司推出的一款 AI 驱动的代码生成平台，能在几分钟内将创意转化为生产就绪的后端应用代码，涵盖数据模型、API 和基础设施，确保一致性和可扩展性。它可与 GitHub Copilot 等 AI 工具协作生成业务逻辑代码，还能根据需求提供最佳架构建议，大幅简化后端开发流程，加快上市速度并确保代码质量。Jovu 支持 Node.js 和 .NET ，可基于 OpenAPI 或 GraphQL 规范生成 API 服务。

https://amplication.com/jovu–production-ready-ai-code-generation

投融资

PolyAI近500亿估值，走近独角兽地位

PolyAI是一家总部位于英国的聊天机器人公司，已接近500亿美元的估值。这家公司的估值即将达到独角兽地位，显示了投资者对其潜力的信心。PolyAI的聊天机器人技术受到了广泛关注，吸引了大量资金的注入。这次融资将帮助PolyAI在其技术和业务方面进一步发展，加速其在聊天机器人领域的市场影响力。

公司官网：https://poly.ai/

https://www.techmarketview.com/ukhotviews/archive/2024/05/16/chatbot-polyai-nears-500m-valuation

Malted AI筹集600万英镑用于成本效益高的小型语言模型

苏格兰初创公司Malted AI宣布已获得600万英镑的种子投资，由Hoxton Ventures领投，Creator Fund和天使投资者参与。该公司采用大型模型的输出，并将其提炼成小型模型，解决特定领域问题，成本节约率可达10-100倍。Malted AI的技术使企业能够应用小型语言模型（SLMs），以10-100倍的成本节省解决特定领域问题。财务和法律公司已经在首次试点中使用该公司的技术，计划在2024年其余时间进行进一步推广。该公司将利用新的种子资金投入研究、产品开发和招聘，以扩大团队规模。

公司官网：https://malted.ai/

https://tech.eu/2024/05/15/malted-ai-raises/

LanceDB为多模态AI构建数据库

LanceDB由Chang She和Lei Xu共同创立，旨在支持多模态AI模型，包括图像、视频和文本等。他们最近在种子轮融资中筹集了800万美元，由CRV、Essence VC和Swift Ventures领投，Y Combinator提供支持，总融资额达到1100万美元。LanceDB的数据库基于Apache Arrow构建，采用自定义数据格式”Lance Format”，可处理数十亿个向量和PB级的文本、图像和视频数据，为AI研究人员和工程师提供单一数据源和快速性能。公司客户包括Midjourney、Character.ai、WeRide和Airtable等。

公司官网：https://lancedb.com/