大模型日报（4月30日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

微软将投资17亿美元在印尼建设云计算和人工智能基础设施

微软公司将投资17亿美元在印尼建设云计算和人工智能基础设施，押注这个东南亚最大经济体以刺激增长。微软首席执行官Satya Nadela宣布将在四年内布局这笔支出，此前他与印尼总统佐科·维多多周二在雅加达会晤。该公司还承诺帮助东南亚250万人接受人工智能技能培训，其中包括印尼的84万人。

https://finance.sina.com.cn/7×24/2024-04-30/doc-inatqstc0684202.shtml

国资委：加快人工智能等新技术与制造全过程、全要素深度融合

国务院国资委召开中央企业大规模设备更新工作推进会，深入学习贯彻习近平总书记重要讲话精神和党中央决策部署，落实国务院推动大规模设备更新和消费品以旧换新工作会议精神，对中央企业推进大规模设备更新工作作出部署。国务院国资委党委书记、主任张玉卓出席会议并讲话。国家发展改革委党组成员、副主任赵辰昕出席会议并介绍了推动大规模设备更新和消费品以旧换新工作进展和下一步工作考虑。国务院国资委党委委员、副主任苟坪主持会议。

https://www.cls.cn/detail/1665289

「非常接近GPT-4」的WizardLM-2被微软紧急撤回，有什么内幕？

前段时间，微软搞了个乌龙：隆重地开源了 WizardLM-2，又在不久后撤回得干干净净。据现在可以查到的 WizardLM-2 发布信息，这是一个「真正媲美 GPT-4」的开源大模型，在复杂聊天、多语言、推理和代理方面的性能得到了提高。该系列包括三个模型：WizardLM-2 8x22B、WizardLM-2 70B 和 WizardLM-2 7B。其中：

WizardLM-2 8x22B 是最先进的模型，也是对高度复杂任务进行内部评估后得出的最佳开源 LLM。
WizardLM-2 70B 具备顶级推理能力，是同等规模的首选；
WizardLM-2 7B 是速度最快的，其性能可与现有的 10 倍大的开源领先模型相媲美。

此外，通过人类偏好评估，WizardLM-28x22B 的能力「只是稍微落后于 GPT-4-1106 预览版，但明显强于 CommandRPlus 和 GPT4-0314。」

它会和 LLaMa 3 一样，成为又一开源里程碑吗？当大家忙着下载模型的时候，团队却突然撤回了一切：博客、GitHub、HuggingFace全部 404。

https://mp.weixin.qq.com/s/jAMYAv5qPC7vXnOYAbP73g

GitHub版Devin上线，会打字就能开发应用，微软CEO：重新定义IDE

微软的“GitHub版Devin”——Copilot WorkSpace，终于上线了！WorkSpace是一种“Copilot原生”的全新开发环境，目的是让所有开发者都可以用自然语言，把脑海里的创意转化成应用。也就是说，只要有想法，而且会打字，就可以搞软件开发了。

https://mp.weixin.qq.com/s/n4aRKfDtkSHlQ6BczqQP_w

在12个视频理解任务中，Mamba先打败了Transformer

探索视频理解的新境界，Mamba模型引领计算机视觉研究新潮流！传统架构的局限已被打破，状态空间模型Mamba 以其在长序列处理上的独特优势，为视频理解领域带来了革命性的变革。来自南京大学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项开创性工作。他们全面审视了 Mamba 在视频建模中的多重角色，提出了针对 14 种模型 / 模块的 Video Mamba Suite，在 12 项视频理解任务中对其进行了深入评估。结果令人振奋：Mamba 在视频专用和视频 – 语言任务中均展现出强劲的潜力，实现了效率与性能的理想平衡。这不仅是技术上的飞跃，更是对未来视频理解研究的有力推动。

https://mp.weixin.qq.com/s/Y1gAtLoAlm7Zzt-Fl8rMYw

神秘GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观

GPT-5 啥时候来？估计是 AI 领域最关心的问题之一了。是像 Sora 一样毫无预兆的发布，还是我们可以从边角料的爆料中得知一点点信息，大家对未来将要发布的这一模型充满了期待。但奥特曼在一次访谈中表示，OpenAI 现在采用迭代部署的方式进行研发，而不是秘密进行直到完成 GPT-5 才公布，他们的目标不是给世界带来震惊性的更新，恰恰相反，OpenAI 希望自己研发的成果不会给人一种跳跃式的发展趋势，如果大家有那种感觉的话，OpenAI 会更加快速迭代地发布他们的产品，比如在发布 GPT-5 之前，先上线 GPT-4.5。无论如何，大家对 GPT-5 的好奇心已经拉满。传言中 OpenAI 今天会有一些大的发布，我们也没有等来。不过，LMSYS Chatbot Arena 上出现了一个神秘的模型，在社交媒体上引起了广泛的热议。这个神秘的模型名为「gpt2-chatbot」，当有人问是谁创建了它？该模型自己的回复时竟然是 OpenAI，并且是基于 GPT-4 架构。

https://mp.weixin.qq.com/s/zsBvfRAxlBn6BFxtYlQbaQ

Sora 会颠覆电影制作吗？3 人团队使用 Sora 制作短片完整技术细节&踩坑分享

今年 2 月份，OpenAI 发布了人工智能文生视频大模型 Sora，并放出了第一批视频片段，掀起了 AI 生成视频浪潮。目前，Sora 仍未进行公测，只有一些视觉艺术家、设计师、电影制作人等获得了 Sora 的访问权限。他们发布了一些 Sora 生成的视频短片，其连贯、逼真的生成效果令人惊艳。最近，被誉为「朋克摇滚皮克斯」的加拿大多媒体制作公司 Shy Kids 发布了一段借助 Sora 制作的视频短片《Air Head》，在社交媒体上迅速引起广泛关注。本周，知名视觉特效总监 Mike Seymour 采访了 Patrick Cederberg，就《Air Head》制作过程、技术难点等信息展开了提问，并在 fxguide 上发布一篇文章介绍了 Sora 在视频实际制作过程中发挥的作用和存在的问题。

https://mp.weixin.qq.com/s/3nIucMzFqNruhlV0rDtpGA

小红书让智能体们吵起来了！联合复旦推出大模型专属群聊工具

语言，不仅仅是文字的堆砌，更是表情包的狂欢，是梗的海洋，是键盘侠的战场。语言如何塑造我们的社会行为？我们的社会结构又是如何在不断的言语交流中演变的？近期，来自复旦大学和小红书的研究者们通过引入一种名为AgentGroupChat的模拟平台，对这些问题进行了深入探讨。

https://mp.weixin.qq.com/s/xqcpu78avAPigLzw9M2wlw

推特

OpenAI：记忆功能现已对所有ChatGPT Plus用户开放

记忆功能现已对所有ChatGPT Plus用户开放。使用记忆功能很简单：只需开始新的聊天并告诉ChatGPT您希望它记住的任何内容。

记忆功能可以在设置中开启或关闭，并且目前在欧洲或韩国不可用。团队、企业版和未来的GPT产品将陆续推出。

https://x.com/OpenAI/status/1784992796669096181

开源Llama-3 8B上下文长度超过1M，超牛本地AI

开源的本地LLama-3 8B，其上下文长度超过1M，对您设备上的本地AI来说是一个巨大的变革。

我所做的测试令人惊讶，并且需要大量的代码库进行优化，结果非常出色。

我们一直在厨房里忙着做🔥很高兴发布第一个@AIatMeta的LLama-3 8B，上下文长度超过1M，在@huggingface上 – 这是继我们上周五发布的160K上下文长度模型之后的新进展！

非常感谢@CrusoeEnergy赞助计算资源。如果您想与我们的团队合作开发定制模型或自动化业务流程，请告诉我们：https://gradient.ai/development-lab

🔗 https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k

https://x.com/BrianRoemmele/status/1785052732174594479

Phi-3笔记本发布，Phi的调优速度提高了2倍，且VRAM使用减少了50%

Phi-3笔记本发布了！使用@UnslothAI，相比于HF+FA2，Phi的调优速度提高了2倍，且VRAM使用减少了50%！

由于采用了滑动窗口注意力机制，不得不对其进行Mistral化，并修复了2048/2047的SWA（滑动窗口注意力）错误。还解除了注意力机制与MLP（多层感知机）的融合，因此QLoRA损失有所不同，但16位的表现相同。

https://colab.research.google.com/drive/1NvkBmkHfucGO3Ve9s1NKZvMNlw5p83ym?usp=sharing

https://x.com/danielhanchen/status/1785040680106234225

奥特曼：我确实对gpt2有一种特别的喜爱

我确实对gpt2有一种特别的喜爱。

https://x.com/sama/status/1785107943664566556

Jason Liu分享微调嵌入：如果你有任何准备好的生产数据，即使只有2000个示例也可以

微调嵌入：

大多数人不知道，如果你有任何准备好的生产数据，你应该能够进行微调并超越OpenAI。

即使只有2,000个示例，你也可以微调一个嵌入。
通过使用Hugging Face推理服务器和Modal Labs，我们展示了你可以在仅仅15分钟内嵌入整个维基百科的内容。

为什么你还不启动你的数据驱动呢？

https://x.com/jxnlco/status/1784942532176072779

OpenDevin向OpenDevin仓库发送了一个拉取请求

我们为OpenDevin这个开源AI软件工程师达到了一个小但激动人心的里程碑 —— OpenDevin向OpenDevin仓库发送了一个拉取请求（pull request）。您可以在这里查看PR：https://github.com/OpenDevin/OpenDevin/pull/1438。

https://x.com/gneubig/status/1784920224753680812

DeepLearning AI新课程《视觉模型的提示工程》：个性化图像生成、图像编辑、对象检测和分割

在由@Cometml的@anmorgan2414、@JacquesVerre和@KaiserFrose教授的《视觉模型的提示工程》课程中，您将学习如何提示和微调视觉模型，以实现个性化图像生成、图像编辑、对象检测和分割。您将使用的提示可能是文本、点坐标或边界框，这取决于模型。您还将学习调整超参数以塑造输出。

您将使用的模型包括Segment-Anything Model（SAM）、OWL-ViT和Stable Diffusion。您还将学习如何微调Stable Diffusion来生成个性化图像（例如，特定人物的图像），使用少量图像进行训练。作为多步骤工作流的一个例子，您将使用OWL-ViT根据文本提示检测一个对象，然后将边界框传递给SAM以创建分割掩码，并将该掩码输入Stable Diffusion中，以根据文本提示替换原始对象。

控制视觉模型可能很棘手；此课程将教授提示和微调技巧，以精确控制它们的输出。开始学习，请访问：

https://deeplearning.ai/short-courses/prompt-engineering-for-vision-models/。

https://x.com/AndrewYNg/status/1784977075176374704

产品

Play AI——实时语音对话（可以尝试进行口语练习）

PlayAI 是一个实时对话语音 AI 平台，目标是创造出更为人性化和自然的语音交互体验，其中有不同工作角色的沟通对话。它结合了对话管理、情感处理等技术，力求实现类人的对话互动。该平台可以应用于各种需要语音对话的场景，为用户带来更加自然流畅的交互体验。

https://play.ai/

My-legacy.ai

My-Legacy.ai 旨在使遗产规划对每个人都更加简单可及。它提供了一种类似信用评分的 “LegacyScore” 来即时评估用户遗产规划准备程度，并根据结果给出个性化的文件清单和操作指引，同时还连接到各种工具、资源和专业建议。

https://my-legacy.ai/

Professor AI

ProfessorAI 是一家由16岁高中生创办的初创公司，旨在通过定制的聊天机器人和图书馆系统，为学生提供个性化的标准化考试辅导服务。很多学士普遍存在无法有效备考和理解课程内容的问题，可以利用人工智能技术如 Wolfram Mathematica、GPT-4 和 Claude 3 等来解决这些痛点，帮助学生在 AP 课程中取得更好的成绩。

https://www.professorai.co/

投融资

Log10完成720万美元种子轮融资

Log10，一家位于旧金山的公司，专注于开发支持LLM（大型语言模型）的应用平台，已成功完成720万美元的种子轮融资。本轮融资由TQ Ventures和Quiet Capital领投，Essence Venture Capital参投。Log10计划利用这笔资金加速新产品的推出，增加研发支出，并扩大运营规模。该平台帮助开发者通过使用AI和合成数据来模拟人工审查，从而构建和扩展LLM驱动的应用程序，提高准确率，同时减少手动审查和调试的时间和成本。

公司官网：https://log10.io/

https://log10.io/news/seed

Blaize领先的边缘计算AI解决方案，宣布完成7100万美元D轮融资以进一步加速增长

Blaize, 一家在边缘计算和汽车计算解决方案领域进行革新的AI计算公司，于2021年7月27日宣布完成了7100万美元的D轮融资。这轮融资由新投资者富兰克林邓普顿和现有投资者淡马锡领投，丹索和其他新老投资者也参与了本轮投资。资金将用于加速产品路线图的发展，以满足对高性能、低功耗、低成本AI硬件以及汽车、智能零售、智慧城市和工业市场中转型性AI软件解决方案日益增长的需求。

公司官网：https://www.blaize.com/