大模型日报（8月7日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

OpenAI实现JSON输出100%准确

OpenAI 最新升级其 GPT-4o 模型，引入了结构化输出功能，能够以 100% 准确率生成 JSON 格式输出。这一进步解决了之前模型在处理结构化数据时的不准确问题，对开发者而言是一个重大的好消息。新模型通过专项培训和基于工程的确定性方法，以及约束解码技术，确保了输出的正确性和可靠性。尽管存在一些限制，如只支持部分 JSON 模式和对象嵌套的限制，但这一功能的推出无疑提高了开发效率和准确性。同时，OpenAI 也降低了输入输出 tokens 的价格，以促进新功能的接受和使用。

https://mp.weixin.qq.com/s/E0z9wTy2G6NWd7fB8hikvw

华人研究生与MIT联手攻克等差数列难题

华人研究生 James Leng 与 MIT 的 Ashwin Sah 和 Mehtaab Sawhney 在组合数学领域的一个长期未解难题 — 等差数列的完全无序不可能性上取得了突破。他们的研究改进了陶哲轩的成果，并在 Szemerédi 定理上进行了扩展，证明了在避免长等差数列时，集合大小的上限比之前的记录要低得多。这一成果是该领域数十年来的首次进展，为未来的数学研究提供了新的视角和方法。

https://mp.weixin.qq.com/s/ppTl0b8uqsk1joJzYH4CCQ

右手骨折也不耽误，工程师用AI一周完成3000行代码

Claude 工程师 Erik Schluntz 因手臂骨折无法手写代码，转而使用 AI 编码工具 Claude 进行编程。通过语音转文字技术，他与 AI 结对工作，在一周内完成了 3000 行代码的编写。这一经历让他认为，AI 将在未来软件工程中扮演关键角色，能够自主编写代码，并与人类工程师进行配对编程。Schluntz 强调，AI 编程将提高效率，降低开发门槛，使工程师能够专注于更高层次的问题解决。他预测，AI 工程师的出现将使软件开发进入一个新的繁荣时代，工程师的工作方式将更加注重自然语言和智能体的交互。

https://mp.weixin.qq.com/s/mjD_wPVnAn3ruSo3r10pnA

谷歌DeepMind推出终身学习智能体：三大模型协作创新

帝国理工与谷歌 DeepMind 合作，开发了扩散增强智能体（DAAGG）框架，结合大模型（LLM）、视觉语言模型（VLM）和扩散模型（DM），实现了 AI 终身学习的关键能力。DAAGG 通过后见之明经验增强技术，重新标记过去经验，实现无人监督的迁移学习和高效探索。实验结果显示，DAAGG 在奖励检测、迁移经验和新任务学习方面取得了显著改进，尤其在视觉增强方面提高了智能体的鲁棒性，为 AI 终身强化学习提供了有效解决方案。

https://mp.weixin.qq.com/s/P-x8EDrfd1ydCnPP8MYu6g

李飞飞联名科学家反对加州AI限制法案

加州议员提出的 SB-1047 法案引发了人工智能领域的广泛关注和讨论。该法案旨在通过对高风险 AI 模型实施安全标准来防止滥用，但被许多科学家和行业专家视为对创新和开源社区的打击。李飞飞等知名人工智能专家认为，该法案不仅过度负责了开发者，而且可能会抑制学术研究和开源项目的发展。他们指出，法案中的责任条款和对模型能力的限制可能会导致开发者在技术创新上采取更为谨慎的态度，从而影响整个 AI 生态系统的进步。此外，法案可能会对学术界的研究和开源社区的活动产生不利影响，限制了学术界对大型模型的访问和研究。科学家们通过联名信和社交媒体表达了对法案的担忧，强调人工智能政策应该鼓励而非限制创新，并且应该以监管应用为主，而不是直接对技术本身进行监管。他们提出，应该建立更加合理和科学的规则，以确保人工智能的安全发展，同时保护和促进开源社区和学术研究的繁荣。

https://mp.weixin.qq.com/s/EkxZ-r4-Swaj5l8ioJyQ7Q

阿里推出全自动AI数据科学家，简化科研流程

阿里推出的 AI 数据科学家（DS Assistant）基于 Modelscope-Agent 框架，实现了数据科学任务的全流程自动化，包括数据分析、预处理、特征工程、模型训练和评估。该系统支持无需编码即可创建 Agent 助理，采用 plan-and-excute 框架处理复杂任务，通过四个主要模块（任务计划、子任务调度、任务执行和结果整合）高效完成任务。实验效果评估显示，DS Assistant 在性能得分、任务时间和消耗 token 数上超越了开源 SOTA。

https://mp.weixin.qq.com/s/VgGNa9ByB09sJJTucNnuIA

LlamaIndex网络研讨会：使用RAG进行大规模生成编码

本次网络研讨会将于8月9日星期五，GMT+8时间凌晨0点至1点通过Zoom平台举行。研讨会重点介绍如何使用LlamaIndex实现检索增强生成（RAG）技术，以提升AI生成代码的上下文意识，确保高代码质量和完整性。具体内容包括：

解决大规模代码库中RAG的挑战
CodiumAI如何利用LlamaIndex增强代码生成的上下文意识
使用LlamaIndex进行索引和检索的最佳实践，提升生成代码质量
为企业提供的高级RAG解决方案

https://lu.ma/ka5xtyqo

ACM SIGCOMM 2024

ACM SIGCOMM 2024 将于2024年8月4日至8日在澳大利亚悉尼新南威尔士大学的Round House举行。作为ACM数据通信特别兴趣小组的年度旗舰会议，本次会议将展示数据通信领域的最新应用、技术、架构和协议。会议内容包括主会场报告、海报展示、演示、学生研究竞赛、工作坊及平行活动等。

https://conferences.sigcomm.org/sigcomm/2024/

推特

OpenAI Mac App现支持并排访问 ChatGPT

macOS 的桌面应用现在为您提供并排访问 ChatGPT 的功能。使用 Option + 空格键打开一个辅助窗口，该窗口会保持在最前方，这样您在使用其他应用程序时可以更方便地使用它。

https://x.com/OpenAI/status/1820914089612439622

吴恩达：分享一些识别有前景创意的最佳实践

上周我写了关于为什么致力于具体的初创公司或项目创意——即详细构想的具体产品，以便我们为特定目标用户构建它——可以让你走得更快。在这封信中，我想分享一些识别有前景创意的最佳实践。

我领导的 AI 基金与许多企业合作，识别创意，通常涉及将 AI 应用于公司的领域。因为 AI 适用于许多行业，如零售、能源、物流和金融，我发现与了解这些领域的领域专家合作，对于识别哪些应用值得在这些领域中构建非常有帮助。

我们的头脑风暴过程始于建议合作企业的大量关键贡献者（至少 10 人，有时超过 100 人）获得 AI 的非技术性、商业级理解，了解其能做什么和不能做什么。参加 DeepLearning.AI 的“人人生成 AI”课程是一个受欢迎的选择，之后，公司可以很好地分配一个小团队来协调头脑风暴过程，然后通过优先级排序练习来选择要进行的工作。头脑风暴过程可以通过任务分析来支持，在此过程中，我们将员工的工作分解成任务，以识别哪些任务可以使用 AI 自动化或增强。

以下是这些活动的一些最佳实践：

(i) 信任领域专家的直觉。一个在特定领域工作多年的领域专家会有很好的直觉，可以让他们做出非专家需要数周研究才能完成的飞跃。

假设我们正在与金融服务专家合作，并开发了一个模糊的想法（“为金融建议构建一个聊天机器人”）。要将其变成具体的想法，我们可能需要回答如哪些金融领域（应该专注于预算、投资还是保险？）和服务哪些类型的用户（应届毕业生、按揭申请人、新父母还是退休人员？）的问题。即使是一个多年提供金融建议的领域专家也可能不知道最佳答案，但通过直觉做出的选择可以快速得出一个合理的具体想法。当然，如果可以快速获得市场研究数据来支持这个决定，我们应该利用它。但为了避免过度拖延，我们发现专家的直觉反应效果很好，是快速做出决定的一种方法。

所以，如果我收到一个非具体的想法，我通常会请领域专家仅凭直觉——不依赖其他——来快速做出必要的决定，以使想法具体化。由此产生的想法只是一个起点，随着时间的推移需要进行调整。如果在讨论中，领域专家选择了一个选项，但似乎非常犹豫是否要放弃另一个选项，那么我们也可以将第二个选项保留为备用，如果第一个选项看起来不再有前途，我们可以快速转向备用选项。

(ii) 生成许多想法。我通常建议提出至少 10 个想法；有些人会提出超过 100 个，这更好。这里适用的常见头脑风暴建议是追求数量而不是质量。当涉及优先级排序时，拥有许多想法尤为重要。如果只认真考虑一个想法——有时会发生这种情况，如果一个高级管理人员有一个非常喜欢的想法并将其作为“主要”想法提出——那么会有很大的压力使这个想法成功。即使进一步调查发现其存在问题——例如市场需求弱或技术构建成本高——团队也会想方设法让它成功，以避免最终一无所获。

相比之下，当公司有许多想法可供选择时，如果一个看起来不那么有趣，很容易将注意力转移到另一个。当考虑许多想法时，更容易比较它们以选择更好的想法。如《Ideaflow》一书所述，生成更多想法用于评估和优先级排序的团队最终会得到更好的解决方案。

因此，我发现运行一个涉及许多员工的广泛头脑风暴过程很有帮助。具体来说，大公司有许多人，他们对业务有很多智慧。让一个小核心团队协调从大量人员收集想法，可以利用这一集体发明的源泉。我多次看到广泛的努力（例如，涉及约 100 个对领域有了解并对 AI 有基本理解的人）比狭窄的努力（例如，涉及少数顶级管理人员）产生更好的想法。

(iii) 明确评估标准。在评估和优先级排序时，明确的评分和排名标准有助于团队更一致地判断想法。业务价值和技术可行性几乎总是包含在内。此外，许多公司会优先考虑可以快速取胜的项目（以为其整体 AI 工作积累势头）或支持某些战略优先事项（如在业务的特定部分增长）。在想法生成阶段明确这些标准有帮助，在评估和优先级排序时尤为重要。

在大公司中，完成收集和优先级排序想法的过程可能需要几周时间，但这对于识别有价值的具体想法非常有帮助。AI 只有在找到合适的应用方式时才有用，我希望这些最佳实践能帮助你生成出色的 AI 应用创意来工作。

https://x.com/AndrewYNg/status/1820863062993490137

Mistral Large 2 加入Arena：在硬榜上名列前茅，在编码、复杂提示和数学方面的表现非常出色

新的 Mistral Large 2 现已发布🔥

它现在在 Arena 硬榜上名列前茅。在编码、复杂提示和数学方面的表现非常出色，超越了顶级模型 GPT-4 Turbo/Claude Opus！

此外，它是一个开源模型——这是开源社区的又一大好消息。

热烈祝贺 @MistralAI ！

https://x.com/lmsysorg/status/1820849829314257004

Vinitsky分享：我们正在开源并发布 GPUDrive，一款 GPU 加速的 2.5D 多智能体驾驶模拟器

Eugene Vinitsky：我们正在开源并发布 GPUDrive，这是一款 GPU 加速的 2.5D 多智能体驾驶模拟器，运行速度超过每秒一百万帧。在一块 GPU 上运行数百个场景意味着可扩展的多智能体规划。

https://x.com/EugeneVinitsky/status/1820869627418701962

Yangqing分享首次音频时间（TTFA）：在 Lepton，我们正在实现实时语音 LLM，结合文本和音频流，延迟低于 300 毫秒

TTFT 已经过时了，是时候讨论首次音频时间 (TTFA) 了！

在 Lepton，我们正在实现实时语音 LLM，结合文本和音频流，延迟低于 300 毫秒。自然集成到每个开源 LLM 模型中。我迫不及待想向您展示这一切。对了，演示视频中的声音就是我本人。你也可以用大约 30 秒的音频获得自己的声音。

“伯克利大学和斯坦福大学哪个更好？”——抱歉，我一直是也永远会是伯克利的粉丝 ;)

我们将在接下来的几天内向我们的客户推出这一功能——如果你有兴趣，请通过 info@lepton.ai 联系我们。

“演讲的唯一原因是改变世界。”

我们正在将本地、实时语音生成带到所有开源 LLMs。我们不是使用分离的、拼凑的模块，而是构建一个单一的引擎，以大约 300 毫秒的首次音频时间同时提供文本和音频。 🧵

https://x.com/jiayq/status/1820876489807872511

Runwayml：结合实景拍摄和生成视觉效果

结合实景拍摄和生成视觉效果。

通过 Gen-3 Alpha 学习如何实现：https://academy.runwayml.com/gen3-alpha/using-image-to-video-in-gen3-alpha

https://x.com/runwayml/status/1820806644806070583

产品

Frontend AI

Rotendai 是一个基于 AI 的工具，帮助用户快速生成和设计前端组件。用户只需输入文本提示或上传图像，工具便会生成相应的 React UI 组件，并提供代码，支持 Tailwind 或 CSS 等样式。

https://www.webcrumbs.org/frontend-ai

Upmetrics AI

Upmetrics 是一款基于人工智能的商业计划软件，帮助企业家和团队简化商业规划过程。它提供多种功能，包括快速生成商业计划、财务预测、战略规划和投资者演示文稿，可以提高效率并提升用户的规划能力。

https://upmetrics.co/

投融资

「零一万物」完成数亿美元融资，某国际战投、东南亚财团加盟

零一万物，李开复创办的 AI 大模型公司，近期完成了数亿美元的融资。此轮融资吸引了国际战投和东南亚财团的参与，显示了对该公司技术和市场潜力的高度评价。自 2023 年 5 月成立以来，零一万物以其核心团队的强大背景和在 AI 领域的快速增长，成为业界关注的焦点之一。公司的产品策略包括在海外市场先行验证，随后在国内市场推广，如 AI 办公工具 PopAi 和生产力工具 “万知”。此外，零一万物推出了首款闭源模型 Yi-Large，在 LMSYS 榜单中获得了中文分榜世界第一的荣誉。公司的全球化战略不仅体现在融资上，也展现在其客户群体和人才招募上，近期多位来自谷歌、微软等公司的 AI 高阶人才加盟。李开复提出的 TC-PMF 理念，强调了在技术成本和产品市场契合度之间寻求平衡的重要性，这也是公司在激烈的市场竞争中保持领先地位的关键。

公司官网：https://www.01.ai/