大模型日报（4月25日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

黄仁勋亲自给OpenAI送货，全球首台DGX H200开箱了

今天，黄仁勋又来送 AI 芯片了，还是超强悍的那种。OpenAI 联合创始人、总裁 Greg Brockman发推，晒出了自己、OpenAI CEO 奥特曼与英伟达创始人兼 CEO 黄仁勋的合照。他表示，老黄亲自为 OpenAI 送来了全球第一台 Nvidia DGX H200 超级计算机，此举意在双方共同推进 AI、计算和人类的发展。

https://mp.weixin.qq.com/s/XZqnyfQNGNeUUYwr6UGIIg

Moderna 与 OpenAI 合作加速开发挽救生命的治疗方法

Moderna 向数千名员工部署了 ChatGPT Enterprise,在整个公司范围内看到了显著的采用。他们创建了数百个定制版本的 ChatGPT,包括一个试点 Dose ID GPT,它使用高级数据分析功能来进一步评估和验证临床研究团队选择的最佳疫苗剂量。

https://mp.weixin.qq.com/s/4H1am4Un-Hk9AJt_Xu0Q7Q

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

Open-Sora 在开源社区悄悄更新了，现在单镜头支持长达16秒的视频生成，分辨率最高可达720p，并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。

https://mp.weixin.qq.com/s/a-FULV7mSskHFar5glbSxg

苹果开源推出高效语言模型系列 OpenELM

Apple 苹果公司最新推出系列高效开源的语言模型OpenELM，包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本(分为预训练版和指令微调版共计八个模型)。OpenELM的代码、预训练模型权重以及训练和评估流程全部开放。此外，苹果还发布了将模型转换为 MLX 库的代码，从而在苹果设备上进行推理和微调。

https://huggingface.co/apple/OpenELM

仅需Llama3 1/17的训练成本，Snowflake开源128x3B MoE模型

Snowflake 发布高「企业智能」模型 Arctic，专注于企业内部应用。刚刚，数据管理和仓库提供商 Snowflake 宣布加入 LLM 混战，发布了一款专注于企业级应用的顶级大型语言模型（LLM）——Snowflake Arctic。作为一家云计算公司推出的 LLM，Arctic 主要具备以下两个方面的优势：

高效智能：Arctic 在企业任务方面表现出色，例如 SQL 生成、编程和指令遵循，甚至可与使用更高计算成本训练的开源模型媲美。Arctic 为经济高效的训练设定了新的基线，使 Snowflake 客户能够以低成本为其企业需求创建高质量的定制模型。

开源开放：Arctic 采用 Apache 2.0 许可，提供对权重和代码的开放访问，Snowflake 还将开源所有的数据方案和研究发现。

现在，你可以在 Hugging Face上访问 Arctic 模型。Snowflake 表示：用户很快可以通过一些模型库获取，包括 Snowflake Cortex、AWS、微软 Azure、NVIDIA API、Lamini、Perplexity、Replicate 和 Together 等。

https://mp.weixin.qq.com/s/0mqx1xkyhOXDGpbu42d_5g

对话 Climind 创始人：AI 如何为地球把脉？产品登上联合国大会，为全球最大评级机构之一、保险公司与政府科研组织服务

95 后创业者王翰元分享她从帝国理工的科研工作到创立 Climind ，一个专注于气候物理风险、转型风险、基于自然解决方案等复杂气候数据的DaaS（Data-as-a-service）平台的故事。Climind 平台利用自研的 Climate Co-pilot，结合企业自身情况，以 C 端的用户体验服务数万全球知名客户，帮助它们挖掘气候数据价值，以预测的方式把握项目与企业的气候风险、转型价值。目前 Climind 的客户都很大，包括但不限于全世界最大的评级机构、保险公司、政府以及科研组织等等。

https://mp.weixin.qq.com/s/WAeJ9NXTBmL4AhbNJrvmOw

英伟达以约7亿美元收购 AI 基础设施编排和管理平台 Run:ai

GPU和AI芯片巨头NVIDIA英伟达正式宣布已与以色列人工智能初创公司Run:ai达成最终协议，将收购这家基于Kubernetes的工作负载管理和编排软件提供商。该交易的价值并未披露，但估计约为7亿美元。

https://mp.weixin.qq.com/s/ZWIW3bTTEq7Cc06WHUyt5g

8B文字多模态大模型指标逼近GPT4V，字节、华师、华科联合提出TextSquare

近期，多模态大模型 (MLLM) 在文本中心的 VQA 领域取得了显著进展，尤其是多个闭源模型，例如：GPT4V 和 Gemini，甚至在某些方面展现了超越人类能力的表现。但是开源模型的性能还远远落后于闭源模型，最近许多开创性的研究，例如：MonKey、LLaVAR、TG-Doc、ShareGPT4V 等已开始关注指令微调数据不足的问题。尽管这些努力取得了显著的效果，但仍存在一些问题，图像描述数据和 VQA 数据属于不同的领域，图像内容呈现的粒度和范围存在不一致性。此外，合成数据的规模相对较小，使得 MLLM 无法充分发挥潜力。

https://mp.weixin.qq.com/s/zFsZsEgHtMUJMye_56j9Cw

登Nature子刊，「机器人+AI+MD模拟」加速材料发现和设计，发现全天然塑料替代品

塑料垃圾严重影响生态平衡和人类健康。近年来，材料科学家一直在努力寻找可用于包装、产品制造的塑料全天然替代品。然而，发现满足特定性能的全天然替代品仍具挑战性。当前的方法仍然依赖于迭代优化实验。近日，马里兰大学帕克分校（University of Maryland，College Park）的研究人员，提出了一个集成的工作流程，将机器人技术和机器学习相结合，加速环保塑料替代品的发现和设计。该论文的合著者 Po-Yen Chen 教授表示：「结合自动化机器人技术、机器学习和分子动力学模拟，我们加速了符合基本性能标准的环保、全天然塑料替代品的开发，我们的集成方法结合了自动化机器人、机器学习和主动学习循环，从而加快可生物降解塑料替代品的开发。」

https://mp.weixin.qq.com/s/tEHljwYlPb_QMamvpANPqQ

扎克伯格增强 Meta 投资者信心：生成式 AI 是长期投资，需数年才能产生回报

扎克伯格在 Meta 公司财报电话会议中表示，公司和投资者在生成式 AI 领域的投资，至少需要数年时间才能产生回报。财报显示，Meta 第一季度的营收为 364.55 亿美元（当前约 2646.63 亿元人民币），同比增长 27%；净利润为 123.69 亿美元，同比增长 117%；摊薄后每股收益达到 4.71 美元，同比增长 114%。

https://www.ithome.com/0/764/172.htm

英国监管机构：对微软和亚马逊的AI投资活动开启反垄断审查

英国竞争与市场管理局（CMA）周三（4月24日）对微软和亚马逊开启了一轮反垄断审查；CMA正在就微软与Mistral AI之间的人工智能合作关系、以及亚马逊与Anthropic之间的合作关系征求第三方意见；两家当事公司辩称，他们对这些初创公司的投资并非是合并。

https://www.cls.cn/detail/1658175

推特

Yi Tay：数据是最重要的，但架构研究并不是“无关紧要”

Yi Tay：不对,特别是在语言方面。如果你训练一个没有自注意力机制的大型深度MLP语言模型,不管你喂给它多少数据,它的表现都会比Transformer差(即使Transformer用的数据更少)。它能达到同样的水平吗?我认为不能。在原始的MLP中,你的token甚至无法相互看到对方。

另一方面,对Transformer的微小调整可能没有数据/计算那么重要。当然,说”架构研究”无关紧要、”没有区别”也不太准确。我经常听到人们用这个来为不在架构层面创新辩护。

事实是,社区是站在巨人的肩膀上,巨人们做了所有的架构研究,将Transformer推进到了今天的状态。

架构研究很重要。现在很多人只是认为这是理所当然的。

Yao Fu：非常赞同。我的直觉是,FFN是用来存储知识的(这就是为什么大多数知识编辑都在FFN上),而注意力是用来实现算法的(这就是为什么大多数机制解释性,例如归纳头,都在注意力上)。此外,注意力似乎能实现的算法范围是其他替代方案的超集:当数据量很大时,一个可以由备选方式(如SSM)实现的算法,也可以由注意力来实现。

https://x.com/Francis_YAO_/status/1783287385599443102

UnslothAI发布长上下文 Llama 3 微调：支持 Llama-3 70b 的 48K 上下文长度

长上下文 Llama 3 微调来了!🦙

Unsloth 在 80GB 的 GPU 上支持 Llama-3 70b 的 48K 上下文长度 —— 比 HF+FA2 长 6 倍。

用 QLoRA 微调 Llama-3 70b 的速度提高了1.8倍,显存使用减少了68%,Llama-3 8b 的速度提高了2倍,可以放进 8GB 的 GPU!

博客:https://unsloth.ai/blog/llama3

https://x.com/UnslothAI/status/1783200234669236532

Stanford CS25 V4 Transformers 课程发布：NLP的历史概况和Transformers 工作原理、影响

我们的 @Stanford CS25 V4 Transformers 课程(http://cs25.stanford.edu)的第一堂课现已发布!请在此查看:https://youtube.com/watch?v=fKMB5UlVY1E&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM&index=26&ab_channel=StanfordOnline。

我们简要介绍了自然语言处理(NLP)的历史概况,Transformers 的工作原理及其影响。我们还讨论了 Transformers 的最新趋势、突破、应用以及仍存在的挑战/弱点。最后,@DivGarg9 谈到了 AI 智能体。

对于那些想要更广泛地了解 Transformers 和该领域现状的人来说,这是一堂非常有用的课!幻灯片链接在我们的课程网站和视频描述中。我们有一个满员的教室(大约200人)以及300多名在线观众!

P.S. 讲座在太平洋时间每周四下午4:30-5:50举行,提供现场和Zoom参与方式,对所有人开放。讲座将在每次课后约2周录制并发布到同一 YouTube 播放列表。我们还有一个”Transformers 社区” Discord 服务器(超过4000名成员)。链接在我们的课程网站上!

https://x.com/stevenyfeng/status/1783221750647697767

Cohere工具包发布：开源仓库,供开发人员构建 RAG 应用程序

Cohere 工具包来了!我们正在发布一个开源仓库,供开发人员构建 RAG 应用程序,就像 Cohere 演示一样。对于开发人员来说,这是一个突破性的进展,可以加速和简化知识助手等企业AI应用的构建。

https://x.com/cohere/status/1783216554483855783

Snowflack同时开源知识库系列：关于如何构建大语言模型的内部知识

在过去的24个月里,很多关于如何构建大语言模型的内部知识已经转入地下。我们将在开放环境中构建 #SnowflakeArctic。

模型架构分析、训练和推理系统性能、数据集和数据组成分析、训练后的乐趣、大规模运行稳定性、去污技巧、指标微妙之处。

首先从我们手册中的前两篇博客开始,请继续阅读下文…

https://x.com/vivek7ue/status/1783201816584597567

supervision-0.20.0：添加对关键点的支持

花了我们一段时间,但 supervision-0.20.0 版本终于将添加对关键点的支持。

你对标注器有什么看法?到目前为止,我们只有 EdgeAnnotator 和 VertexAnnotator。

supervision 仓库:

https://github.com/roboflow/supervision

https://x.com/skalskip92/status/1783094376794624348

Eric Schmidt 支持的 Augment 作为 GitHub Copilot 的竞争对手,以 2.52 亿美元的资金悄然推出

人工智能正在为编码提供强大动力,开发人员也在接受它。

在最近的 StackOverflow 调查中,44% 的软件工程师表示他们现在在开发过程中使用 AI 工具,26% 的人计划很快使用。Gartner 估计,目前有一半以上的组织正在试点或已经部署了 AI 驱动的编码助手,到 2028 年,75% 的开发人员将以某种形式使用编码助手。

前微软软件开发人员 Igor Ostrovsky 认为,很快就不会有开发人员在工作流程中不使用 AI 了。”软件工程仍然是一项艰难且通常令人乏味和沮丧的工作,尤其是在大规模情况下,”他告诉 TechCrunch。”AI 可以提高软件质量、团队生产力,并帮助恢复编程的乐趣。”

因此,Ostrovsky 决定构建他自己想要使用的 AI 驱动的编码平台。

这个平台就是 Augment,周三它以 2.52 亿美元的资金从隐形模式中脱颖而出,估值接近独角兽(9.77亿美元)。在前谷歌 CEO Eric Schmidt 以及 Index Ventures、Sutter Hill Ventures、Lightspeed Venture Partners、Innovation Endeavors 和 Meritech Capital 等风投的投资下,Augment 旨在撼动仍处于萌芽状态的生成式 AI 编码技术市场。

https://techcrunch.com/2024/04/24/eric-schmidt-backed-augment-a-github-copilot-rival-launches-out-of-stealth-with-252m/

产品

LangWatch

LangWatch.ai 旨在优化 GenAI 产品性能，减轻 AI 风险。他们的目标是通过洞察力支持决策，减轻安全风险，了解机器人产生幻觉的地方，并提高质量，以及保护产品免受越狱等恶意行为的侵害。

https://langwatch.ai/

MarketerGrad

MarketerGrad 旨在帮助公司与经验丰富的营销和设计专业人士建立联系。他们的目标是连接那些不需要全职营销，设计帮助的公司，同时也没有时间不断地外包零散的项目工作。该平台建立了一个 AI 系统，可以在 30 秒内帮助公司了解专业人才，并最终安排通话。据称，已经有大约 100 家公司使用了这个平台。

https://marketergrad.com/

投融资

Nvidia 以7亿美元收购 AI 工作负载管理初创公司 Run:ai

Nvidia 收购了以色列特拉维夫的 AI 工作负载管理公司 Run:ai，交易金额据称为7亿美元。Run:ai 成立于几年前，已成功吸引包括 Insight Partners、Tiger Global 在内的风险投资。此次并购后，Nvidia 将继续提供 Run:ai 的产品，并将其整合进 Nvidia 的 DGX Cloud AI 平台，以优化和管理 AI 硬件基础设施。此交易是 Nvidia 自2019年以69亿美元收购 Mellanox 以来的最大收购之一。

公司官网：https://www.run.ai/

https://techcrunch.com/2024/04/24/nvidia-acquires-ai-workload-management-startup-runai/

Nvidia 将收购以色列深度学习公司 Deci AI

Nvidia 宣布将收购以色列深度学习开发商 Deci AI，该公司开发了压缩生成 AI 语言模型的技术。此次收购紧随 Nvidia 昨日宣布与以色列 AI 基础设施协调和管理公司 Run:ai 达成最终协议，收购金额预计为6.8亿美元。Deci AI 成立四年来，已从包括 Emerge 和 Insight Partners 在内的投资者处筹集了5500万美元。公司计划利用其技术帮助客户更有效地在 Nvidia 服务器上运行 AI 语言模型，提高每个服务器的工作效率。

公司官网：https://deci.ai/

https://en.globes.co.il/en/article-nvidia-to-buy-israeli-deep-learning-co-deci-ai-report-1001477419

Parloa，一款面向客户服务的对话AI平台，融资6600万美元

Parloa，一家专注于客户服务的对话AI平台，成功完成了6600万美元的B轮融资，由 Altimeter Capital 领投。这轮融资紧随其去年完成的2100万美元融资。Parloa 创立于2018年，致力于通过自动化改善效率，已与欧洲保险巨头 Swiss Life 和体育用品零售商 Decathlon 等知名客户合作。此次融资将用于加强其在欧洲和美国的业务扩张。总投资至今已达9800万美元。

公司官网：https://www.parloa.com/

https://techcrunch.com/2024/04/24/parloa-a-conversational-ai-platform-for-customer-service-raises-66m/

法国初创公司 FlexAI 推出革新性人工智能计算解决方案，融资3000万美元

FlexAI 是一家位于巴黎的初创公司，专注于为开发者提供更便捷的 AI 应用构建和训练计算资源。公司刚结束隐藏阶段，宣布成功筹集了2850万欧元（约3000万美元）的资金。这次融资由 Alpha Intelligence Capital (AIC)、Elaia Partners 和 Heartcore Capital 领投，Frst Capital、Motier Ventures、Partech 以及 InstaDeep 的 CEO Karim Beguir 参投。FlexAI 计划利用这笔资金推出其首个产品：一个按需云服务，旨在简化 AI 训练过程。

公司官网：https://www.flex.ai/

https://techcrunch.com/2024/04/23/french-startup-flexai-exits-stealth-with-30m-to-ease-access-to-ai-compute/