大模型日报（10月13日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

OpenAI剽窃？20岁创始人自曝代码结构被抄袭，多智能体Swarm陷争议

近日，OpenAI发布了全新多智能体框架Swarm，引发了广泛关注，项目一经推出便迅速获得了4.6k星。然而，年仅20岁的Swarms Corporation创始人Kye Gomez指控OpenAI涉嫌剽窃其团队的核心技术。Gomez表示，OpenAI不仅窃取了项目名称，还抄袭了他们的代码结构和方法，侵犯了其团队的知识产权。

Gomez指出，Swarms Corporation开发的多智能体框架已经运行了近3年，拥有超过4500万个智能体在生产环境中运行，为金融、保险和医疗等行业提供服务。他警告称，除非OpenAI进行投资，否则将采取法律行动。Gomez详细列举了相似之处，包括框架名称的近似、语法规则的复制（如.run()）、函数自动转换功能等方面。

OpenAI的Swarm框架通过“智能体”和“交接”来实现智能体的协调和执行，旨在打造一个轻量级、高度可控且易于测试的系统，已在开发者社区引发热议。Gomez的指控则使这一新框架的发布蒙上阴影，目前双方争议仍在发酵，公众期待看到更多证据和澄清。

https://mp.weixin.qq.com/s/LHHhMm7prS6lRcwXNccd-Q

趋境科技发布大模型知识推理一体机

随着开源大模型的进化，推理能力在各行各业的应用不断拓展，未来的算力建设将更多聚焦于推理场景，而不仅限于训练算力。华福证券预计，到2027年，推理端AI服务器将占整体工作负载的72.6%。尽管大模型取得了显著进展，但部署数百亿参数的模型仍面临高成本和低效率的挑战。

为解决这一问题，趋境科技推出了“大模型知识推理一体机”，首创“全系统推理架构”，通过协同存储、CPU、GPU、NPU等设备，降低推理成本达10倍以上。这种架构充分利用异构算力资源，实现推理效率的突破性提升。

趋境科技的创新还包括“融合推理（Fusion Attention）”技术，通过历史信息与现场数据的融合，提升推理效率。此外，趋境科技与清华大学团队合作，推出了“KTransformers”开源框架，进一步提升了推理性能，在长上下文推理任务中表现卓越。

这一架构已成功应用于多个行业，如长亭科技通过该架构将安全大模型升级为千亿级别，大幅提升了网络安全性能，并降低了部署成本50%。

https://www.qbitai.com/2024/10/199659.html

Anthropic CEO发布乐观主义长文，讨论AI未来及投融资动向

近日，Anthropic CEO达里奥·阿莫代（Dario Amodei）发布了一篇约1.5万字的长文，详细阐述了他对人工智能（AI）未来的乐观愿景。阿莫代表示，他并非“AI末日论者”，而是相信AI将在未来几年内解决许多全球性问题，包括医疗突破、世界饥饿和气候变化。

阿莫代预测，强大的AI可能在2026年问世，这种AI将能够超越诺贝尔奖得主的智能水平，执行复杂任务，如证明数学定理和撰写优秀小说。此外，他认为AI将在未来5-10年内帮助治愈PTSD、抑郁症、阿尔茨海默病等疾病，并通过AI研发的新药提升人类认知功能和情感状态。阿莫代甚至预测，人类的平均寿命可能因此翻倍，达到150岁。

尽管这些预测充满乐观色彩，但许多专家质疑AI短期内是否真的能够实现这些目标，尤其是考虑到现有AI技术在医疗领域尚未展现出颠覆性效果。阿莫代在文章中也提到，解决这些问题需要全球健康、慈善和政治领域的巨大努力。

值得注意的是，这篇文章的发布恰逢Anthropic正寻求融资的关键时期。据报道，Anthropic正计划筹集数十亿美元的风投资金。分析人士指出，阿莫代的乐观主义论调与其公司正在进行的融资可能有关，类似的情况曾在OpenAI CEO萨姆·奥特曼（Sam Altman）发布乐观主义文章后发生，紧接着OpenAI完成了65亿美元的融资。

最终，阿莫代强调，尽管AI可能带来巨大经济变革，人类仍需讨论如何调整经济结构，以应对AI接管大量工作后的社会影响。然而，他并未提出具体的解决方案。

https://darioamodei.com/machines-of-loving-grace

https://techcrunch.com/2024/10/11/anthropic-ceo-goes-full-techno-optimist-in-15000-word-paean-to-ai/

商汤“夺金”SuperCLUE-V多模态大模型基准10月榜单

今日，SuperCLUE-V中文多模态大模型测评基准发布了10月榜单，商汤科技的商量多模态大模型（SenseChat-Vision 5.5）凭借卓越表现，总得分73.56分，跻身国内大模型第一梯队，并在数理逻辑维度超越所有参评模型，包括最新版本的GPT-4o，荣获金牌。

SuperCLUE-V的评估涵盖多维度能力，包括基础能力和应用能力，以开放式问题形式测试了11个国内外多模态大模型。商汤SenseChat-Vision 5.5在数理逻辑推理任务（如图表推理、场景推理）表现突出，显示出其强大的推理能力。

商汤科技董事长徐立博士提出的三层架构理论（知识、推理、执行）是其模型能力提升的核心策略。商汤科技的“日日新5.5”体系通过使用大量合成高阶思维链数据，显著提升了推理能力，在数理逻辑、指令跟随等方面提升了30%。

https://www.qbitai.com/2024/10/199693.html

推特

F5-TTS：使用10万小时数据训练，零样本语音克隆，语速控制等

太棒了！F5-TTS 🔊

使用10万小时数据训练
零样本语音克隆
语速控制（基于总时长）
基于情感的合成
长文本合成
支持代码切换
最棒的是：CC-BY 许可（商业友好）🔥

基于扩散的架构：

非自回归 + 使用 DiT 的流匹配
使用 ConvNeXt 优化文本表示和对齐

合成示例：“我当时，呃，正在和朋友聊天，她对去欧洲的旅行，嗯，特别兴奋，而我就，呃，特别羡慕，对吧？”（开心情绪）

语音合成领域现在火热极了！🐐

https://x.com/reach_vb/status/1845157049891500097

Taelin：一个简短的论证说明当前的大型语言模型仍然无法真正进行推理

这段话提出了一个简短的论证，说明当前的大型语言模型（包括最新的 o1）仍然无法真正进行推理：

考虑一个倒置完美二叉树的问题。这是一个老旧的、入门级的面试问题，人类和LLMs都可以轻松解决。现在，通过加入三个关键变化来使这个问题变得新颖和独特：

1. 它必须倒置键（即“位反转置换”）

2. 它必须是无依赖的、纯递归函数

3. 它的类型必须是 Bit -> Tree -> Tree

这些小小的改变足以将这个问题移出“记忆的解决方案区域”。它在互联网上没有现成的答案。而且，猜猜看？这已经足够让当前的AI完全无法处理这个问题。无论你如何提示它，所有现代AI都无法成功解决这个问题。

这非常具有相关性，因为这个问题对人类研究者来说仍然很容易，而能够解决它是对计算机科学研究有贡献的前提条件之一。然而，所有现代AI在此类问题上表现惨淡。尽管我非常喜欢LLMs，但事实是：它们不进行真正的推理，并且它们永远无法从事计算机科学领域的研究。

一些供你尝试的提示：

https://gist.github.com/VictorTaelin/45440a737e47b872d7505c6cda27b6aa

我愿意提供 $10,000 给任何能够展示某个AI能正确实现这个函数的人。无论它思考多久，都无法成功。（解决方案只有7行代码！）

https://x.com/VictorTaelin/status/1844886809005687270

Comfydeploy v2：支持多 ComfyUI 云端会话，适用于任何GPU

介绍 @comfydeploy v2 —— 生成式AI的操作系统。

• 支持多 @ComfyUI 云端会话，适用于任何GPU

• 任何自定义节点、模型、Loras

• 支持任意工作流的流媒体/Rest API（TS/Python）

这是运行、协作和部署你的 ComfyUI 工作流的最佳平台。

https://x.com/BennyKokMusic/status/1845203791257502072

AI电话接待员：Saarth Shah分享，8小时黑客松制作

Garry Tan：是否已经有一种AI电话接待员，可以接听和筛选电话，记录留言，并且只在紧急认证的电话或直接来自我朋友和家人的电话时响铃通知我？

我想将我的主号码切换到一个AI电话筛选系统。这看起来很容易实现。

Saarth Shah：AI电话接待员

仍然是一个非常早期的原型，是为一次8小时的黑客马拉松制作的。

还可以用你选择的任何语言交流，尤其是因为使用了实时的OpenAI API。

https://x.com/clefourrier/status/1844323838517252172

产品

Google Illuminate

Google Illuminate 是一个由 Google 推出的工具，可以将研究论文转换为 AI 生成的音频摘要。这个工具可以帮助用户更快地理解复杂的内容，特别适合需要快速学习大量研究论文的人士。用户可以通过这个平台获取简短的音频摘要，从而节省时间，尤其对听觉学习者非常有帮助。

https://illuminate.google.com/

投融资

「千觉机器人」完成天使轮融资

千觉机器人（Xense Robotics）近日完成数千万元人民币的天使轮融资。本轮融资由高瓴创投（GL Ventures）领投，璞跃中国（Plug and Play China）和交大菡源基金等跟投。融资所得将用于加速产品研发、商业拓展以及人才招募，进一步推动公司的成长。

千觉机器人成立于2024年5月，总部位于上海，专注于研发用于机器人精细操作的多模态触觉感知与智能技术。该公司开发的触觉传感器能够提供高分辨率的三维力觉、动觉和滑觉等多模态触觉感知信息，解决了传统触觉传感器仅能感受压力分布及空间分辨率不足的问题。这一技术为机器人与物理环境的自主交互提供了新的能力，特别是在突破机器人灵巧操作的瓶颈方面具有显著优势。

千觉机器人的创始人马道林是触觉感知领域的领军人物之一，他的研究在全球范围内首次实现了通过触觉同步感知“力”和“运动”两大核心要素的技术突破。这为智能机器人的精细操作提供了强大的技术支撑。马道林博士拥有北京大学的博士学位，并曾在麻省理工学院（MIT）从事机器人和触觉感知的前沿研究。

投资方高瓴创投表示，千觉机器人凭借其顶尖的技术团队和在触觉感知领域的积累，具备为具身智能产业创造最佳解决方案的潜力。璞跃中国合伙人朱晓雯也认为，千觉机器人的技术将快速在工业机器人和人形机器人的灵巧手领域实现落地，展现出巨大的市场潜力。