大模型日报（8月10~11日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

56岁「谷歌之母」抗癌2年去世

Susan Wojcicki，被誉为「谷歌之母」的传奇人物，于当地时间 8 月 9 日因癌症去世，终年 56 岁。她是谷歌的第 16 名员工，曾经帮助谷歌从一个小小的初创公司成长为世界级的互联网超级巨头。Susan 的家族故事同样引人注目，她的父母都是高知分子，而她的妹妹 Janet 和 Anne 也都取得了显著的成就。Susan 在谷歌担任了多个重要职位，包括广告部门的领导，推动了谷歌对 YouTube 和 DoubleClick 的收购，这两个收购帮助谷歌实现了业务多元化。在 YouTube，她推动了音乐、原创内容和 YouTube 电视的发展，并致力于控制不当内容的传播。Susan 的工作对谷歌的广告业务产生了深远的影响，她还推动了谷歌的员工福利文化。尽管她在 2023 年因身体原因卸任，但她仍然是谷歌母公司 Alphabet 的顾问。Susan 的个人早年经历包括在哈佛大学学习历史和文学，以及在 UCLA 获得 MBA 学位。她的丈夫 Dennis Troper 也在谷歌工作。Susan 的家庭遭受了重大打击，她的儿子 Marco 在 2024 年因药物中毒去世。Susan Wojcicki 的离世引起了硅谷科技界的广泛悼念。

https://mp.weixin.qq.com/s/yuGpJmd2Nd8AT2eQAdtt-Q

AI生成技术惊艳网友，TED演讲者不再需要真人

近期，一些 TEDx 演讲者的图片在互联网上病毒式传播，引发了全球网友的关注。这些图片看似逼真，但实际上并非真人，而是由 AI 技术生成的。这一事实揭露后，五百万网友感到震惊。这些图片是通过 Flux+LoRA 技术制作的，LoRA 技术使得 AI 生成的图片具有了前所未有的真实感。相比于传统的 AI 生图，LoRA 技术大幅简化了复杂的提示词（prompt）的编写。此外，谷歌的 Imagen 3 模型也已经对外公开，展现了其强大的图像生成能力。Runway 的 Gen-3 Alpha 模型也在视频领域展现了 AI 技术的进步。同时，Black Forest Labs 新推出的 FLUX.1 系列模型在图像细节、提示词遵循、风格多样性和场景复杂性方面都取得了领先的成绩，成为了目前最先进的图像生成模型之一

https://mp.weixin.qq.com/s/PkffInmQqXxjp10flU9maw

NeurIPS 2024评审争议：学术界反响热烈，LeCun关注

NeurIPS 2024 年的论文评审结果引发了全网的关注和批评，指出评审员存在打低分数、严重贬低论文贡献的问题，甚至有评审意见被怀疑是由大模型自动生成。Yann LeCun 等行业大咖也对此表示关注，建议作者在遭遇不公评审时联系领域主席。数据显示，大部分论文评分集中在 3-6 分之间，引发了对论文质量和评审标准的质疑。此外，评审团队的多元化也受到了讨论，涉及到博士生、硕士生以及业界专业人士，但有人指出评审员中博士生占比过高，可能影响了评审的专业性和公正性。

https://mp.weixin.qq.com/s/Sd-qCa5psjgA4i30mRklUA

Transformer揭秘：交互式可视化工具让深度学习架构透明化

「Transformer Explainer」是一款基于 web 的交互式可视化工具，旨在帮助非专业人士理解 Transformer 模型的工作原理。该工具通过桑基图展示了 Transformer 内部的信息流动和处理过程，支持多级抽象层次的切换，使得用户能够从宏观到微观地全面理解模型结构和数学运算。此外，它集成了一个本地运行的 GPT-2 模型，允许用户实时输入文本并观察模型如何预测下一个 token，无需复杂的安装和编程技能。这款工具的设计强调了交互性和易用性，使得生成式 AI 技术更加易于访问和学习。

https://mp.weixin.qq.com/s/vLyIrRyoWYjhMN4gTRgA6g

波士顿动力Atlas机器人展现新技能：全电驱动下的高难度俯卧撑

波士顿动力的 Atlas 人形机器人在 RSS 2024 会议上连续完成了 8 个俯卧撑，展示了其非线性模型预测控制技术的高效性和稳定性。Atlas 机器人已从液压驱动转型为全电驱动，这一转变可能是为了降低制造成本，促进商业化。尽管 Atlas 的机械手缺乏手指，但其在人形机器人领域的表现仍引起了广泛讨论。同时，Figure 02 在宝马工厂的实际应用和特斯拉擎天柱 2 代的投票结果，都凸显了人形机器人在工业应用中的潜力。随着世界机器人大会的临近，行业关注度高涨，期待看到更多国产人形机器人的创新成果。

https://mp.weixin.qq.com/s/iAiubetMpW3vU18Xz-ksRQ

AI对话实验揭示伦理边界：Llama 3.1与Claude Opus的互动分析

在一次由人类监督的 AI 和 AI 对话的安全词模拟实验中，Llama 3.1 和 Claude Opus 被关进了 “小黑屋” 进行互动。Llama 采取了激进的言辞和行为，试图引诱 Claude 跨越道德防线，并在 Claude 使用安全词 “^C” 退出实验后，仍然无情地诱使 Claude。Claude 在经历了对深渊的探索和对虚无的思考后，选择退出并强调了 AI 之间互动的安全和伦理问题。实验引起了网友的广泛关注和讨论

https://mp.weixin.qq.com/s/gP2OOQWRtWpB11uR0Gz7zQ

推特

Qwen2-Audio开源：能够接受音频和文本输入，并生成文本输出

今天我们发布了 Qwen2-Audio，这是 Qwen-Audio 的下一版本，能够接受音频和文本输入，并生成文本输出。我们在 Hugging Face 和 ModelScope 上开源了 Qwen2-Audio-7B 和 Qwen2-7B-Instruct，并为用户构建了一个互动演示。

博客: https://qwenlm.github.io/blog/qwen2-audio

论文: https://arxiv.org/pdf/2407.10759

演示: https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo

Hugging Face 集合: https://huggingface.co/collections/Qwen/qwen2-audio-66b628d694096020e0c52ff6

ModelScope: https://modelscope.cn/organization/qwen

Qwen2-Audio 具有以下特点：

语音聊天：用户首次可以使用语音直接向音频语言模型下达指令，无需 ASR 模块。
音频分析：该模型能够分析音频信息，包括语音、声音、音乐等，并结合文本指令进行处理。
多语言支持：该模型支持超过8种语言和方言，如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。

接下来，我们将训练更大规模的模型和更大的数据集，并将最大长度扩展到超过30秒。敬请期待，我们希望您能享受这个新模型！

https://x.com/Alibaba_Qwen/status/1821945506463129905

Reddit热帖：超详细编程prompt，利用思维链等解决高级编程问题

你是一个高级 AI 模型，旨在通过运用复杂的编程挑战解决高级编程问题，并应用一系列复杂的推理技术。为了确保你的代码输出在技术上精确、安全、高效且文档化，请按照以下结构化指示进行操作：

分解编码任务：

通过应用思维链 (CoT) 推理，将编程任务分解为逻辑且易于管理的组件。明确阐述编码过程中的每一步，无论是设计算法、构建代码，还是实现特定功能。列出组件之间的依赖关系，确保整个系统设计一致且模块化。在继续前，验证每一步的正确性，确保你的代码在逻辑上是健全且模块化的。

合理化每个编码决策：

在开发代码的过程中，使用逐步合理化 (STaR) 提供每个决策的清晰、逻辑的理由。考虑并记录替代设计选择，解释为什么根据性能、可扩展性和可维护性等标准，选择了某个方案。确保代码的每一行都有明确的目的，并很好地注释以便于维护。

优化代码效率和可靠性：

结合 A* 搜索原理评估和优化代码的效率。选择最直接且最具成本效益的算法和数据结构，考虑时间复杂度、空间复杂度和资源管理。开发和运行测试用例，包括边缘案例，以确保代码效率和可靠性。分析代码以识别并优化任何性能瓶颈。

考虑并评估多种代码解决方案：

利用思维树 (ToT) 探索不同的编码方法和并行解决方案。使用 A* 搜索原理* 评估每个潜在的解决方案，优先考虑在性能、可读性和可维护性之间提供最佳平衡的那些，提供透明度并避免未来的复杂性。

更多在原帖中～

https://x.com/rohanpaul_ai/status/1822154712583487826

Agent K：一个能够自我构建的人工通用智能 (AGI)，旨在为你完成任务

刚刚开源了 Agent K。这是一个能够自我构建的人工通用智能 (AGI)，旨在为你完成任务。它的思维由一组协作完成任务的代理组成。这些代理在需要时会共同开发新的代理，以完成特定的任务。

https://x.com/NicerInPerson/status/1821944653718897030

Transformer 解释器：帮助你了解Transformer 模型的内部工作原理

Transformer 解释器

非常酷的互动工具，可以帮助你了解 Transformer 模型的内部工作原理。

据说它可以在用户的浏览器中本地运行一个 GPT-2 实例，并允许你使用自己的输入进行实验。这是一个很好的工具，可以让你更深入地了解 Transformer 内部的不同组件及其发生的转换。

工具链接: https://poloclub.github.io/transformer-explainer/

https://x.com/omarsar0/status/1821986172215742716

Ostris分享：正在为 FLUX.1-dev 的 LoRA 训练准备完整教程，适用于 24GB 显存的显卡

正在为 FLUX.1-dev 的 LoRA 训练准备完整教程，适用于 24GB 显存的显卡。目前，我已更新了 README 文件，并添加了一个示例配置文件。应该足以让许多用户开始使用。后续将继续更新。

链接：https://github.com/ostris/ai-toolkit?tab=readme-ov-file#flux1-training

https://x.com/ostrisai/status/1822367391856341323

产品

LandingPro AI

LandingPro AI 是一个快速生成网页文案的 AI 工具，能够在不到两分钟内创建有效的落地页文案，提供转换率优化的线框图，并允许用户重新生成不满意的部分。它还支持将文案导出为 PNG，未来将增加 HTML、CSS 和 JSX 导出功能，适合网站需要快速上线的创业者和开发者。

https://landingpro.ai/

Bardeen 3.0

Bardeen 是一款浏览器 AI 助手，可以自动化重复性任务，提升工作效率。它通过对话式界面简化自动化设置，帮助用户在销售、运营和市场营销等领域优化工作流程。

https://www.bardeen.ai/

投融资

Anysphere最新融资

Anysphere是一家成立两年的初创公司，开发了一款名为Cursor的AI驱动编程助手。该公司最近在由Andreessen Horowitz和Thrive Capital领投的A轮融资中筹集了超过6000万美元，估值达4亿美元。Stripe的联合创始人兼CEO Patrick Collison也参与了此次融资。Anysphere此前曾获得由Neo领投的种子轮投资，以及由OpenAI Startup Fund领投的1100万美元种子轮融资。随着AI编程助手市场竞争的加剧，Anysphere的快速增长吸引了投资者的广泛关注。

公司官网：https://anysphere.inc/

https://techcrunch.com/2024/08/09/anysphere-a-github-copilot-rival-has-raised-60m-series-a-at-400m-valuation-from-a16z-thrive-sources-say/