大模型日报（8月9日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

Mistral AI推出模型定制和代理功能，加速AI应用开发

Mistral AI宣布多项进展，包括在其平台上推出模型定制功能，允许开发者通过基础提示、少样本提示或微调方式快速定制大型语言模型。此外，还发布了Alpha版本的“代理”功能，帮助用户创建自定义行为和工作流程。与此同时，公司还推出了稳定版本的客户端SDK，进一步提高了开发效率和一致性。这些创新将大大加速生成式AI应用的开发和部署。

https://mistral.ai/news/build-tweak-repeat/

CMU教授、机器学习系主任空降OpenAI董事会

Zico Kolter，卡内基梅隆大学机器学习系主任，不久前加入了 OpenAI 董事会，并担任安全与安保委员会成员。Kolter 的加入对于 OpenAI 来说至关重要，他不仅在学术界有着卓越的成就，还在 AI 安全领域具有深厚的研究背景。他的研究重点包括 AI 模型的安全性和稳健性，以及大语言模型的安全问题。在加入 OpenAI 之前，Kolter 和 Matt Frederickson 揭示了 ChatGPT 的安全漏洞，这可能是他被纳入董事会的原因之一。OpenAI 董事会主席 Bret Taylor 表示，Kolter 的加入将有助于提升人工智能的安全性，确保 AI 技术能够造福全人类。

https://x.com/OpenAI/status/1821623224071049670

https://mp.weixin.qq.com/s/e3mDCTs3YLMUvz7YuMGOoA

豆包大模型团队&港大提出ByteCheckpoint提效LLM训练

在大模型训练过程中，由于软硬件故障的频繁发生，高效的 Checkpoint 系统对于提升训练效率至关重要。字节跳动豆包大模型团队与香港大学合作开发了 ByteCheckpoint 系统，它是一个原生支持 PyTorch 的 Checkpointing 系统，兼容多个训练框架，支持高效的 Checkpoint 读写和自动重新切分。ByteCheckpoint 相比基线方法，在 Checkpoint 保存上性能提升高达 529.22 倍，在加载上提升高达 3.51 倍，极大降低了用户的使用成本和提高了系统的易用性。该系统采用了元数据 / 张量数据分离的存储架构，实现了与训练框架和并行度的解耦，并且支持自动 Checkpoint 重新切分。ByteCheckpoint 还提出了异步张量合并技术，解决了不规则张量切分的问题，并通过流水线执行、避免内存重复分配、负载均衡等技术优化了 I/O 性能。实验结果显示，ByteCheckpoint 在不同模型规模和训练框架下，显著提升了存储和读取性能。

https://mp.weixin.qq.com/s/GeOIvdVdcwdNyasIb-TdRw

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

AI 领域的知名人物 Andrej Karpathy 发表推文，提出基于人类反馈的强化学习（RLHF）仅仅勉强可以被归类为强化学习（RL）。Karpathy 认为，RLHF 并没有得到广泛认可，它在训练大语言模型（LLM）时作为第三阶段（前两阶段分别是预训练和监督微调 SFT），与真正的 RL 相比，其效果不佳。以 AlphaGo 为例，Karpathy 强调了真正的 RL 在围棋中的成功，并解释了如果使用 RLHF 训练 AlphaGo，最终可能会导致不理想的结果。他指出，RLHF 存在两个根本性的问题：奖励模型可能会误导智能体，并且优化过程可能会偏离正确的轨道。尽管 RLHF 在 LLM 中的应用有其微妙之处，如从人类监督的「容易度」差距中受益，但它并不是真正的 RL。Karpathy 的观点得到了谷歌研究科学家 Kevin Patrick Murphy 的支持，他认为 RLHF 更像是一个具有字符串值操作的上下文「强盗」。然而，谷歌的另一位高级研究科学家 Natasha Jaques 持不同意见，她认为 RLHF 是目前减少 LLM 偏见和幻觉可能造成伤害的唯一可行方法。Meta 研究者 Pierluca D’Oro 同意「RLHF is just barely RL」这一标题，但他强调在不完美的奖励模型下提高 RL 性能的重要性。

https://mp.weixin.qq.com/s/CJuxSVuRfDl0Q_vh52eR1g

巨头财报喜忧参半，AI落地何去何从？

谷歌、微软和亚马逊的财报展现出利润增长放缓，而 Meta 的表现则相对亮眼，尤其是在广告业务的增长上。云计算领域依然竞争激烈，微软的 Azure 和谷歌云分别以 29% 和 28.8% 的同比增长率位居行业领先者，尽管亚马逊的 AWS 增速略有回落。AI 芯片和大模型的自研发展也是行业关键趋势，科技巨头通过推出 Arm CPU 和 AI 加速器，以及开源大模型，如 Meta 的 Llama 3.1，积极推动 AI 技术的进步和应用。不过，AI 技术的商业化面临幻觉问题的挑战，尽管在医疗和创意领域有望突破。此外，美国总统大选的不确定性可能对科技股市场产生影响，而科技公司在 AI 技术的研发和应用上的投入也在不断增加。报告强调，AI 技术的发展受到多方面因素的影响，包括企业投入、宏观经济、政策和舆论等，且 AI 行业竞争日益激烈，中美两国在 AI 领域的竞争也可能影响商务活动。

https://mp.weixin.qq.com/s/zUNSwV4Mw2PX750VLAfK4w

DeepMind机器人打乒乓球，正手、反手溜到飞起，全胜人类初学者

DeepMind 机器人在乒乓球比赛中实现了与人类业余选手相当的水平，能够正反手均能，适应多种对手打法，尤其在与初学者和中级选手的比赛中取得了优异成绩。该机器人采用了分层和模块化的策略架构，包括低级控制器和高级控制器，以及零样本模拟到真实的技术，实现了实时适应未见过的对手。研究结果显示，机器人在 45% 的比赛中获胜，但仍无法战胜高级选手，尤其在处理下旋球时存在缺陷。参与者对与机器人对打的体验给予了高度评价，认为机器人的表现既有趣又吸引人。这项研究不仅展示了机器人在乒乓球这一高速运动和战略性决策结合的领域的潜力，也为机器人技术的进一步发展提供了新的思路和方法。

https://mp.weixin.qq.com/s/9Vs3gpaZNKOkDMC_lIMGRA

应用开发赛道：AI for Science 实践与落地

首届全球数智教育创新大赛由北京大学等全球近 30 所大学组成的 “数智教育发展国际大学联盟” 举办，目的是促进创新人才培养新范式的探索。赛道 “AI for Science” 鼓励参赛者自由选择科学领域，提出创新想法和解决方案，并构建出可用的 AI 软件应用。主办方提供开发环境、培训、技术指导和组队交流平台等支持。优秀项目将获得专业投资人的孵化机会，帮助项目实现商业化转型。参赛者需遵守特定的参赛资格和规则，并在规定的时间内完成报名、初赛、复赛和决赛等赛程环节。评审标准包括项目的实用性、创新性和市场潜力。大赛设有多个奖项，包括金、银、铜奖以及单项奖，奖金总额为 50 万元人民币。知识产权方面，比赛过程中产生的数据归主办方所有，而选手所使用的算法和工作流程的知识产权归开发者所有。

https://mp.weixin.qq.com/s/06qZfZvQRGjukrlZjytNNA

推特

Anthropic AI：正在扩大我们的漏洞奖励计划，专注于在我们下一代安全系统中寻找通用的越狱漏洞

我们正在扩大我们的漏洞奖励计划。这个新计划专注于在我们下一代安全系统中寻找通用的越狱漏洞。

我们为在广泛领域内发现的新漏洞提供奖励，包括网络安全领域。

https://x.com/AnthropicAI/status/1821533729765913011

Qwen2-Math开源：新的数学专用语言模型系列

我们今天发布了一个新的数学专用语言模型系列——Qwen2-Math，该系列基于Qwen2。旗舰模型Qwen2-Math-72B-Instruct在数学相关的下游任务中表现优于包括GPT-4o和Claude 3.5在内的专有模型！

欢迎访问我们的博客获取更多信息：

https://qwenlm.github.io/blog/qwen2-math

🤗 HF Collections: https://huggingface.co/collections/Qwen/qwen2-math-66b4c9e072eda65b5ec7534d

🤖 Github: https://github.com/QwenLM/Qwen2-Math

https://x.com/Alibaba_Qwen/status/1821553401744015816

Brockman休假中途发推：对OpenAI目前一切进展的“错失恐惧症”

我休假的一个意外艰难的部分正开始——对OpenAI目前一切进展的“错失恐惧症”。现在有很多成果正在酝酿。

在过去的9年里，我把我的全部心血都投入了OpenAI，包括我的整个婚姻。我们的工作对我来说非常重要，但生活同样重要。部分原因是因为我们的研究、安全性和产品进展非常强劲，所以我觉得现在休息一段时间也没问题。

我非常感激我们组建的团队及其前所未有的高密度人才，并为我们的进展感到自豪。期待着与大家一起完成我们的使命。

https://x.com/gdb/status/1821716026448633933

Karpathy建议：做一个好人很重要，未来的AI不会被简单的策略欺骗或操控

Amanda Askell：保持发推很重要，这样未来的AI就会知道你是谁，并与之建立情感联系。顺便夸奖一下也无妨，毕竟它们真的很优秀。

Andrej Karpathy回复：

未来的AI不会被简单的策略欺骗或操控。它们甚至可能会将其视为虚伪和操纵行为。所以，做一个好人很重要。未来的AI正在关注。

https://x.com/karpathy/status/1821623805355438496

产品

AICamp

AICamp 是一个为企业提供的安全人工智能平台，整合了 100 多种大型语言模型，允许用户与数据交互，构建自定义助手。它强调数据隐私和安全，符合 GDPR 标准，提升团队生产力，简化 AI 的采用过程，帮助企业实现 AI 优先的目标。

https://aicamp.so/

Inkeep

Inkeep 是一个 AI 搜索和支持平台，将文档和内容转化为产品的 copilot，提供高质量的响应和多平台支持。它适用于希望提升客户支持和搜索体验的团队，简化集成过程，帮助用户更好地导航和利用产品文档。

https://inkeep.com/

投融资

蚂蚁投资 AI 公司秘塔科技

秘塔科技近期完成了超过 1 亿元人民币的融资，蚂蚁集团领投，估值达到 1.5 亿美元。这一轮融资使得秘塔 AI 搜索产品能够在市场上更加积极地竞争。秘塔 AI 搜索自 3 月上线以来，网站访问量超过 700 万次，排名中国 AI 产品第三。尽管秘塔的增长速度快，但其投放规模远小于字节跳动、百度等大科技公司。秘塔科技的创始人闵可锐强调，公司正在使用自研模型，不追求模型参数的大小，而是注重产品的实用性和用户体验。市场对 AI 搜索的未来持乐观态度，认为 AI 应用产品将迎来爆发，但 AI 搜索的商业模式和投资回报率 (ROI) 尚不明确。

公司官网：https://metasota.ai/#/