我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

OpenAI 任命首位首席经济学家

OpenAI 近日聘请了其首位首席经济学家——Aaron Chatterji。Chatterji 曾在拜登政府时期担任美国商务部的首席经济学家，并在奥巴马总统的经济顾问委员会中担任高级经济学家。目前，他还是杜克大学商学院和公共政策的教授。在 OpenAI，他将研究人工智能（AI）对经济的影响，带领团队探讨 AI 如何影响经济增长和就业前景等问题。

Chatterji 在协助拜登政府实施2022年《芯片法案》（CHIPS Act）方面发挥了重要作用，该法案为美国计算机芯片的发展提供了约2800亿美元的资金支持。Chatterji 对该项目的深入了解以及他在政界的广泛人脉，可能会为 OpenAI 未来在芯片设计领域的探索提供帮助。

此外，OpenAI 当日还任命了另一位重要人物——Scott Schools，曾担任美国司法部副助理检察长和Uber合规部门负责人。Schools 将担任 OpenAI 的首席合规官，负责与公司董事会及各团队合作，确保 OpenAI 遵守法律法规并维持伦理标准。

https://techcrunch.com/2024/10/22/openai-hires-its-first-chief-economist/

Anthropic 推出新款 Claude 3.5 Sonnet AI 模型，可控制PC操作

Anthropic 最近发布了升级版的 Claude 3.5 Sonnet 模型，其核心新功能是能够通过“Computer Use” API 与桌面应用程序交互。该模型可以模拟用户的键盘输入、鼠标点击和光标移动，实际上模拟了人在电脑前的操作。此功能现已开放测试，开发者可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 进行尝试。

技术细节与创新：

屏幕交互：Claude 3.5 Sonnet 能够通过屏幕截图分析用户界面，计算鼠标光标移动的像素数来执行点击等操作。它还支持使用软件工具完成复杂任务，如处理数据、填写表单等。
性能提升：新版本带来多项性能优化，包括改进的指令执行能力和工具使用精度，尤其是在编码任务上的表现优于 OpenAI 的 GPT-4o。尽管模型并未专门针对这些任务进行训练，但它具备自我纠正和重试的能力，能处理需要多步骤的复杂任务。
局限性：虽然 Claude 3.5 Sonnet 能够执行多种桌面级命令，但在实际操作中仍存在一定的缺陷，例如对滚动和缩放操作的处理不佳，并且容易遗漏一些短暂的操作提示。此外，操作速度较慢且易出错，Anthropic 建议开发者从低风险任务入手。

安全与风险：Anthropic 意识到这一功能可能带来的安全风险。尽管模型没有在训练期间访问过用户的屏幕截图和网络内容，Anthropic 采取了措施来防止滥用，包括为模型配置高风险操作分类器，避免其与社交媒体或政府网站互动。此外，所有通过 Computer Use API 生成的截图将至少保留 30 天，供开发者和安全团队参考。公司表示，在必要时可以限制模型的访问权限，以防止垃圾邮件、欺诈和错误信息传播。

市场应用与未来方向：早期版本的 Claude 3.5 Sonnet 已被 Replit 用于自动化应用程序验证，Canva 也在探索该模型对设计和编辑过程的支持能力。此外，Anthropic 还计划推出更经济的 Claude 3.5 Haiku 版本，旨在以较低成本提供更高效的工具使用和定制服务。

https://techcrunch.com/2024/10/22/anthropics-new-ai-can-control-your-pc/

Stability 宣布其最新的 Stable Diffusion 模型可生成更“多样化”图像

在经历了一系列技术问题和许可变更的争议之后，AI 初创公司 Stability AI 宣布了其最新的图像生成模型家族——Stable Diffusion 3.5 系列。公司声称，该系列比之前的技术更具定制性和多功能性，且性能更强。

Stable Diffusion 3.5 系列包含三个模型：

Stable Diffusion 3.5 Large：拥有 80 亿参数，是该系列最强大的模型，能够生成分辨率高达 1 百万像素的图像。
Stable Diffusion 3.5 Large Turbo：这是 3.5 Large 的蒸馏版本，虽然生成速度更快，但图像质量有所降低。
Stable Diffusion 3.5 Medium：优化于手机和笔记本等边缘设备，支持生成分辨率为 0.25 至 2 百万像素的图像。

目前，Stable Diffusion 3.5 Large 和 3.5 Large Turbo 已上线，而 3.5 Medium 将于 10 月 29 日发布。

Stability 表示，3.5 系列模型可以生成更“多样化”的输出，即无需复杂提示就能生成具有不同肤色和特征的人物图像。首席技术官 Hanno Basse 透露，在训练过程中，使用多个版本的提示对每张图像进行标注，并优先处理简短提示，从而确保对给定文本描述的图像概念有更广泛和多样的分布。

尽管其他公司在过去曾尝试在图像生成器中引入类似的“多样化”功能，但结果往往导致社交媒体上的负面反响。比如，谷歌的 Gemini 聊天机器人早期版本在生成历史人物时，常常出现不符合历史背景的角色，导致该功能被暂停了近六个月。

Stability 也承认，虽然新版本在多样性上有所提升，但与早期模型一样，3.5 系列在提示响应方面可能仍会存在问题，特别是那些缺乏特异性的提示会导致输出的美学水平有所波动。

此外，Stability 保留了其先前模型的许可模式：模型可以免费用于“非商业”用途，收入少于 100 万美元的企业可以自由使用，而超过此金额的公司则需要获得企业许可。

Stability 还计划在未来几天发布 ControlNet 模型，允许用户进行微调和自定义，同时它还提供了多种第三方平台的 API 接口支持。

尽管 Stable Diffusion 3.5 系列在版权方面面临挑战，但公司允许数据所有者请求从训练数据集中删除其内容，并强调采取了合理措施防止模型被滥用于误导性内容。

https://stability.ai/stable-image

Mochi -10B 视频生成开源模型

Mochi 1是一款最新的开源视频生成模型，展现了高质量的运动表现和极强的文本提示响应能力，极大缩小了开源与封闭视频生成系统的差距。该模型基于Apache 2.0许可开放，初期版本支持480p分辨率的视频生成，未来将推出720p高清版本。Mochi 1在运动质量和提示响应度上都达到了业界最前沿水平，生成的视频帧率为30fps，长度可达5.4秒，具有高时间一致性和逼真的物理模拟效果，如流体、毛发等动态表现。模型采用了新颖的非对称扩散Transformer架构（AsymmDiT），通过多模态自注意力机制联合处理文本与视频编码，视频分辨率压缩至128倍，并应用RoPE三维位置嵌入。

Mochi 1基于10亿参数的扩散模型，是目前最大的视频生成开源模型，支持长时段视频上下文推理，具备SwiGLU前馈层和查询-键归一化等技术优化。与传统多语言模型联合的提示编码不同，Mochi 1仅依赖单一的T5-XXL模型处理文本。虽然当前版本在极端运动场景中偶有失真，但其未来版本将进一步提高生成分辨率并改善可控性。同时，Mochi 1支持开放研究和商业应用，为娱乐、教育、机器人等领域提供创新的解决方案。

https://www.genmo.ai/blog

推特

00Arxiver开源：包含 138,830 篇 arXiv 论文的多Markdown格式

Runway推出Act-One：不需要动作捕捉或绑定，通过一个驱动视频和角色图像生成富有表现力的角色表演

介绍 Act-One。在 Gen-3 Alpha 中，通过一个驱动视频和角色图像生成富有表现力的角色表演。不需要动作捕捉或绑定。

Act-One 让你能够忠实地捕捉演员表演的精髓，并将其应用到生成过程中。传统的面部动画流程复杂，而 Act-One 只需一个简单的驱动视频，甚至可以用手机拍摄。

无需动作捕捉或角色绑定，Act-One 能够将单一输入视频的表演应用到不同的角色设计和风格中。

该模型可以在多种摄像机角度和焦距下生成电影感和逼真的效果，让角色的情感表现更加丰富，带来全新创作可能。

通过 Act-One，视线、微表情、节奏和表达都能在最终输出中忠实呈现。

Act-One 将逐步开放使用，并很快向所有人提供。

https://x.com/runwayml/status/1848785907723473001

Perplexity推出Pro Search推理模式：激发你的好奇心，提出多层次的问题

Pro Search 现在更强大了，推出了推理模式！

激发你的好奇心，提出多层次的问题。Perplexity 会根据你的问题进行适应。

亲自试试看吧！（示例查询在下方👇）

https://x.com/perplexity_ai/status/1848800407071690755

Ideogram Canvas：无限的创意画板，用于组织、生成、编辑和组合图像

今天，我们推出了 Ideogram Canvas，一个无限的创意画板，用于组织、生成、编辑和组合图像。

将你的头像或品牌视觉导入 Ideogram Canvas，使用业内领先的 Magic Fill 和 Extend 功能，将它们与创意、AI 生成的内容融合在一起。

https://x.com/ideogram_ai/status/1848757699606983143

Dreamcut AI：AI驱动的视频编辑与屏幕录制，在任何设备上轻松编辑视频

介绍 http://dreamcut.ai

这是我用 Claude AI 从零开始构建的视频编辑器。耗时 3 个月，写了超过 5 万行代码。我完全跳过了设计阶段，直接开始编写代码。

目前处于早期测试阶段。你可以注册一个免费账户，试用 AI 工具。

AI驱动的视频编辑与屏幕录制

DreamCut 是一个全新的 AI 视频编辑器和屏幕录制工具，直接在浏览器中运行。你可以在任何设备上轻松编辑视频，借助云端强大的 AI 功能提升效率。通过 AI 语音配音、智能聊天助手、即时笔记和惊艳的图像/视频生成功能，为你的内容增添魅力，令观众惊叹。

https://x.com/MengTo/status/1848669694800367901

Replit主席分享：Claude 计算机使用功能接入 Replit 的 Agent效果惊人

我已经不记得上一次我对一个新的 AI 功能如此激动是什么时候了。

我们将 Claude 的计算机使用功能接入了 @Replit 的 Agent，作为人工反馈的替代品。结果……它就这么直接起作用了！我觉得不久之后，我们的 Agent 就会实现完全自主。

https://x.com/pirroh/status/1848752337080488177

产品

Averi

Averi 是一款 AI 驱动的营销管理平台，帮助企业快速制定营销策略、创建内容并组建团队。它结合了基于公司数据的智能营销工具和经过审核的营销专家，提供高效的协作环境，用户可以免费使用基础计划，提升营销效率。

https://www.averi.ai/

Capgo

Capgo 是一个用于构建和管理微服务架构的工具，可以在简化服务的部署、监控和管理，提供服务发现、负载均衡、监控日志记录及弹性容错等功能，以提高系统的可扩展性和可靠性。

https://capgo.ai/

投融资

CrewAI 利用第三方模型实现业务任务自动化

CrewAI 是 João Moura 创立的一家公司，旨在通过自动化来简化重复的后台任务，如报告总结和员工入职流程。与传统的机器人流程自动化（RPA）不同，CrewAI 通过集成 OpenAI 和 Anthropic 等第三方模型，实现更灵活、智能的工作流自动化。用户可以通过 CrewAI 平台构建自动化流程，并从仪表盘上监控它们的执行情况。

CrewAI 的亮点在于其灵活的 AI 代理体系，允许用户根据不同的业务需求选择最佳的 AI 模型，并且能够与超过1000个应用程序进行集成，确保数据隐私的同时提升业务效率。Moura 强调，CrewAI 提供的技术比 RPA 更具弹性，尽管 AI 也可能会出现“幻觉”或偏差问题，但整体上比传统的基于固定规则的 RPA 系统更稳定。

在融资方面，CrewAI 已经通过种子轮和A轮融资共筹集了1800万美元，投资方包括 Boldstart Ventures、Craft Ventures、Earl Grey Capital、Insight Partners 等知名投资机构。此外，Coursera 联合创始人及 AI 企业家 Andrew Ng 和 HubSpot 的联合创始人兼CTO Dharmesh Shah 也参与了投资。目前，CrewAI 的估值已达1亿美元，客户数量在公司成立的第一年内已达到150个。

CrewAI 计划将这笔资金用于扩大其核心自动化产品，并扩充目前16人的团队。随着业务增长，公司有望在明年夏天实现正向现金流。

公司官网：https://www.crewai.com/

https://techcrunch.com/2024/10/22/crewai-uses-third-party-models-to-automate-business-tasks/

Highlight AI 助手独立融资1000万美元

今年早些时候，因游戏视频剪辑功能闻名的初创公司Medal推出了跨平台AI助手应用Highlight。现Medal将Highlight拆分为一个独立实体，并成功完成了一轮融资，募集资金1000万美元。

本轮融资由General Catalyst领投，Valor、SV Angel和Conviction Embed参与投资。同时，Medal在7月份筹集的1300万美元中，也向Highlight注资了300万美元。

Medal的联合创始人Pim de Witte是Highlight与Medal之间的唯一联系，Highlight现有独立的团队，包括来自ClickUp的前设计副总裁Haris Butt、Medal联合创始人Josh Lipson以及Medal的首位增长负责人Mark Bond。

Highlight是一款跨平台的桌面应用，用户可以上传屏幕、语音笔记或文档作为上下文，并通过大语言模型（LLM）进行提问。该应用还支持会议音频转录，方便用户在会后查询相关内容。Highlight的功能包括总结、重写、突出显示和解释上下文等常见的AI助手操作。

公司计划未来通过按处理字数收费的模式进行商业化，目前Highlight仍免费使用。

公司官网：https://highlightai.com/

https://techcrunch.com/2024/10/22/desktop-ai-assistant-app-highlight-spins-out-of-medal-with-10m-in-funding/

Interface.ai 融资3000万美元助力银行处理客户请求

金融机构客户自动化平台Interface.ai近日宣布完成了一轮3000万美元的融资，由Avataar Venture Partners领投。其中2000万美元为股权融资，另外1000万美元为债务融资。这是Interface首次引入外部资本，此前公司完全依靠自筹资金运营。

Interface.ai的CEO兼联合创始人Srinivas Njay表示，该平台已被北美超过100家金融机构信赖，每天处理数百万次客户互动，并且已实现数千万美元的年经常性收入。Njay的创业灵感来自他父亲在印度经营的一家信用社。此前，Njay曾在微软担任Bing广告团队的产品经理，并在EA负责移动游戏的产品管理。

Interface.ai 的核心产品是一套基于语音和文本的AI代理，专为处理银行客户服务请求设计。这些AI代理经过专门训练，能够完成诸如修改抵押贷款付款和开设新账户等任务。银行可以通过调整内部数据进一步定制这些代理，并根据之前的聊天内容进行产品推荐。

此次融资的3000万美元将用于扩展Interface在北美和印度的120人团队，并加速市场推广计划。

公司官网：https://interface.ai/

https://techcrunch.com/2024/10/22/interface-ai-raises-30m-to-help-banks-field-customer-requests/

Socket 融资4000万美元加强软件供应链安全

初创公司Socket专注于检测开源代码中的安全漏洞，最近完成了一轮4000万美元的融资，以应对日益严重的软件供应链安全问题。这轮融资由Elad Gil和Andreessen Horowitz领投，参与的投资者还包括雅虎联合创始人Jerry Yang、OpenAI董事长Bret Taylor、Twilio联合创始人Jeff Lawson和Shopify的联合创始人兼CEO Tobias Lütke。

Socket的创始人兼CEO Feross Aboukhadijeh指出，传统的安全工具无法有效解决现代软件开发中的依赖性问题，尤其是开源软件组件的依赖关系，这些依赖关系极易带来安全隐患。Socket的解决方案是通过扫描工具检测开源组件中的恶意活动，例如后门程序和模糊代码，并在更新或添加依赖项时及时向开发者发出警报。

Socket目前拥有超过100个客户，保护7500多个组织的300,000个代码库，支持全球超过100万名开发者。其客户包括Anthropic、Harvey、Figma、Vercel和美国四大银行之一。此外，公司每周检测超过100起零日软件供应链攻击，远超同类竞争对手。

Socket还整合了OpenAI和Anthropic的生成式AI API，能够生成漏洞摘要，并检查开源代码的许可证合规性。Aboukhadijeh称，本轮融资是“抢先进行的”，因为公司尚未花完去年8月A轮融资的资金。这次新融资将使Socket继续扩大规模，特别是在AI生成代码引入更多安全漏洞的情况下，Socket的技术填补了市场空缺。

此次融资使Socket的总融资额达到6500万美元，公司计划在年底前将员工人数从32人增加到50人，主要加强工程、产品设计和销售团队的力量。

公司官网：https://socket.dev/