大模型日报（9月25日资讯篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

资讯

潞晨Video Ocean正式全面公测，视频大模型全方位升级重塑视觉体验

潞晨Video Ocean文生视频应用正式上线，免费向用户开放，以其创新技术架构和用户导向的视频生成体验，为用户带来了一个全新的数字互动世界。

在本次产品迭代中，潞晨对人脸渲染进行了深度优化，同时扩展了镜头语言的多样性，提升了画面的纹理和质感，风格上也更加多元化，为用户打造了一个更加立体和多彩的视觉体验，使得视频创作变得简单便捷，让每个用户都能轻松掌镜，导演自己的视觉大片。

体验地址：video.luchentech.com

https://mp.weixin.qq.com/s/2hypUv7KoBuhTVcpaAhc8w

xRx by 8090: 利用Groq打造与部署多模态AI解决方案

随着AI解决方案向多模态用户体验（UX）演进，用户期待通过文本、图像、音频、视频等多种格式与AI交互。实现这一目标的挑战在于开发者需要使用多个专门优化的模型，进行复杂的用户交互设计，以保证流畅的体验。8090推出的xRx是一个开源开发框架，结合了多模态输入输出能力和强大的推理引擎，支持高效的多模态AI解决方案创建和部署。其架构包括客户端、数据流管理器、语音转文本与文本转语音模块、推理代理及安全代理，确保输出质量和响应速度。xRx在Groq的LPU AI推理技术上运行，提供快速、实时的用户体验，适用于医疗、电子商务等多个场景，显著提升用户体验和业务成果。

更多详细信息查看GroqCloud™平台和GroqRack™集群。

xRx by 8090, Powered by Groq: Create & Deploy Multimodal AI Solutions

Together Enterprise 平台

Together AI 推出的 Together Enterprise 平台为企业提供了一个完整的生成式 AI 生命周期管理平台，支持在任何环境中部署、优化和运行 AI 模型。该平台专注于提升模型推理速度、优化 GPU 利用率，并降低运营成本。以下是技术细节的总结：

环境部署灵活性：该平台允许在任何环境中部署，包括 Together 云、虚拟私有云 (VPC) 或本地环境，确保数据完全在防火墙内，保持高度的隐私和安全控制。

持续模型优化：通过自适应推测器和自动微调等技术，平台能够对模型进行持续优化，提升模型的性能和效率。

模型兼容性与灵活性：用户可以选择超过 200 个预训练模型（如 Llama、Mixtral），或导入自定义模型进行推理和微调，支持多模态、嵌入式、排序和代码生成等多种类型。

GPU 管理与编排：平台通过智能调度、自动扩展和流量控制，提升 GPU 资源的利用率，实现 2-3 倍的推理速度，且显著降低了 GPU 成本。

企业级安全与隐私：平台符合 SOC 2、GDPR 和 HIPAA 等主要行业标准，支持端到端加密，确保数据隐私和安全。

该平台已被多家领先企业（如 Salesforce、Zoom、Zomato）使用，助力其生成式 AI 应用的生产部署，并为客户提供更快、更高效的 AI 服务。

https://mp.weixin.qq.com/s/eUw8bjgDCKeo60EQhM22ow

电子：关注苹果新品发布和AI功能落地节奏

硬件升级：iPhone 16系列搭载了3nm工艺的A18芯片，支持AI本地化运行，内存总带宽增加17%，GPU性能提升20%，CPU性能提升15%。相机控制按钮支持视觉智能和拍摄控制，通过按压力度实现不同功能。
影像升级：标准版iPhone 16配备48MP主摄和12MP超广角摄像头，支持空间视频拍摄；Pro版则搭载48MP主摄、12MP潜望式长焦和48MP超广角摄像头，支持120fps 4K电影感慢动作视频拍摄。
Apple Intelligence：AI功能包括书写工具、Genmoji、更新版Siri等，采用“端+云”方式，强调隐私保护。首批功能包括更自然的Siri、书写工具、照片搜索、AI消除、通话摘要和智能回复。
可穿戴设备：Series 10手表搭载S10芯片，屏幕面积增加30%，尺寸更窄，充电速度提升，支持心脏问题警示和睡眠呼吸暂停检测。AirPods 4采用H2芯片，支持头部动作交互，具备主动降噪功能。

https://www.together.ai/blog/introducing-the-together-enterprise-platform

推特

奥特曼分享智能时代：如果我们能够快进到一百年后的今天，周围的繁荣也

会让人感到同样难以想象

GPT概括：

在未来几十年里，我们将能够实现一些在祖辈看来如同魔法般的事情。这种现象并非新鲜事，但它将以更快的速度加速。人类能力的增长并非因为基因变化，而是因为社会的基础设施远比我们任何个人聪明得多。在某种意义上，社会本身就是一种高级智慧。我们的祖辈和前几代人建立了许多伟大的成就，为我们今天享受的进步奠定了基础。

人工智能将为人类提供解决难题的工具，帮助我们进一步推动这种进步。未来，我们将拥有能够帮助我们完成前所未有任务的个人AI团队，孩子们将拥有虚拟的导师，个性化地教授任何学科、任何语言。医疗、软件开发等领域也将迎来类似的突破。

通过这些新能力，人类的共同繁荣将超出我们的想象。虽然繁荣不一定带来幸福，但它将显著改善世界各地人们的生活。

纵观人类历史，经过几千年的科学发现和技术进步，我们现在能够创造越来越强大的人工智能系统。这可能是迄今为止历史上最重要的事实。我们可能在未来几年内拥有超级智能。

实现这一进步的关键在于：深度学习成功了。深度学习随着规模的扩大变得越来越好，我们投入了越来越多的资源。我们发现了一种算法，能够真正学习任何数据分布。计算能力和数据越多，深度学习就越能帮助人们解决难题。

未来，AI模型将成为自主的个人助手，帮助我们完成各种任务，甚至推动下一代系统的研发。技术已经把我们从石器时代带到了工业时代，而未来将通向“智能时代”。

为了让更多人能使用AI，我们需要降低计算成本并增加能源供应。如果不构建足够的基础设施，AI可能成为战争的对象或富人的专属工具。

“智能时代”的到来充满了复杂的挑战，但潜在的好处巨大。虽然会有负面影响，但人类的未来将比今天更加光明。

https://x.com/sama/status/1838262165435802116

用 DocETL 重新构想基于 LLM 的非结构化数据分析

大型语言模型（LLMs）在处理复杂任务方面取得了令人兴奋的进展！但它们在分析复杂的非结构化文档时仍然存在困难（包括今天的Gemini 1.5 Pro 002）。

我们（加州大学伯克利分校）构建了📜DocETL，这是一个开源的、低代码的基于LLM的数据处理系统：https://data-people-group.github.io/blogs/2024/09/24/docetl/

https://x.com/sh_reya/status/1838617833393283428

Show-Me：一个可视化和透明的推理代理，o1替代方案

我构建了一个o1替代方案，其特点是：

完全透明，可视化跟踪

无限递归

自愈机制，每个步骤都有测试

能够使用Python解释器

它的表现非常出色，赶快来看看吧！

Show-Me：一个可视化和透明的推理代理

Show-Me 是一个开源应用，旨在为传统大型语言模型（LLM）的交互提供一个可视化和透明的替代方案。它将复杂的问题分解为一系列有逻辑的子任务，使用户能够理解LLM的逐步推理过程。该应用使用LangChain与LLM进行交互，并通过动态图形界面展示推理过程。

https://x.com/pranavmarla/status/1838590157265539307

185个在Google Cloud Next ’24大会上由行业领袖展示的生成式AI真实应用案例

需要一些关于如何将AI应用于工作的灵感吗？

这里有185个在Google Cloud Next ’24大会上由行业领袖展示的生成式AI真实应用案例。

该列表展示了各组织如何利用谷歌的AI解决方案提升不同领域的流程、效率和创新。

来自全球领先组织的185个真实世界生成式AI应用案例

一览顶尖公司、政府、研究人员和初创企业如何利用谷歌的AI解决方案提升其工作。

https://blog.google/products/google-cloud/gen-ai-business-use-cases/

HuggingChat：将强大开源语言模型直接带到桌面

很高兴发布 HuggingChat 💬 ——一款原生 macOS 应用，将强大的开源语言模型直接带到您的桌面，支持 Markdown、网页浏览、代码语法高亮等功能！

HuggingChat macOS 是一个专为 macOS 用户设计的原生聊天界面，利用开源语言模型的强大功能。它将先进的AI对话能力直接带到您的桌面，提供流畅且直观的使用体验。

大模型日报（9月25日资讯篇）

https://x.com/cyrilzakka/status/1838618605648490974

产品

Blaze

Blaze 是一款基于人工智能的视觉设计工具，帮助用户快速创建美观的社交媒体内容。通过检测用户的 Instagram 或 Facebook 句柄，Blaze 自动识别品牌的颜色和风格，生成超过 60 种视觉内容，并支持一键排程和发布，简化内容创作过程，让没有设计经验的用户也能轻松制作高质量的内容。

https://www.blaze.ai/

｜HuggingFace&Github

字节跳动推出两款视频模型大模型❗️

豆包视频生成——PixelDance模型

PixelDance V1.4是ByteDance Research团队开发的 DiT 结构的视频生成大模型，同时支持文生视频和图生视频，能够一次性生成长达10秒的精彩视频片段。模型具备出色的语义理解能力，无论是复杂的故事叙述，还是细腻的情感表达，都能轻松应对。

模型可完成时序性多拍动作，支持多主体复杂交互，还拥有丰富的运镜效果，多风格多比例兼容性强，能快速生成优质的视频片段。

豆包视频生成——Seaweed模型

Seaweed 支持两种视频生成方式：文生视频和图生视频。该技术基于Transformer结构，利用时空压缩的潜空间进行训练，模型原生支持多分辨率生成，适配横屏、竖屏，并能够根据用户输入的高清图像分辨率进行适配和保真。默认输出为720p分辨率、24fps、时长5秒，并可动态延长至20-30秒。

https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seaweed

推荐阅读

原创文章，作者：LLM Space，如若转载，请注明出处：https://www.agent-universe.cn/2024/09/21244.html

大模型日报（9月25日资讯篇）

资讯

xRx by 8090: 利用Groq打造与部署多模态AI解决方案

电子：关注苹果新品发布和AI功能落地节奏

推特

产品

｜HuggingFace&Github

「理论与实践」AIPM 张涛：关于Diffusion你应该了解的一切

「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

— END —

关于作者

LLM Space

大模型日报（9月25日 资讯篇）

资讯

xRx by 8090: 利用Groq打造与部署多模态AI解决方案

电子：关注苹果新品发布和AI功能落地节奏

推特

大模型日报（9月25日资讯篇）