大模型日报（6月22~23日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

优化 Character.AI 的 AI 推理

Character.AI 采用了记忆高效的架构设计，通过多查询注意力、混合注意力水平和跨层 KV-sharing 等技术，减少了 KV 缓存大小，而不牺牲质量。此外，Character.AI 开发了一种高效的状态缓存系统，用于在聊天轮次之间缓存注意力 KV，这对于长对话尤其有效，大大降低了推理成本。同时，Character.AI 使用 int8 量化来优化训练和服务，通过原生的 int8 精度训练模型，避免了训练 / 服务之间的差异，并显著提高了训练效率。

通过这些创新，Character.AI 实现了前所未有的推理效率，减少了推理成本，使得 LLMs 能够更容易地在大规模服务。自 2022 年底以来，服务成本已经减少了 33 倍，如果使用主流商业 API，成本将至少增加 13.5 倍。Character.AI 正在继续构建一个 LLMs 驱动创新和增强全球用户体验的未来。

https://research.character.ai/optimizing-inference/

Agent is all you need，智能体最前沿丨2024智源大会精彩回顾

2024 年 6 月 14 日，智源大会「Agent」专题论坛召开，由清华大学副教授刘知远主持，邀请了清华大学博士后钱忱、美国罗格斯大学计算机科学学院副教授张永锋、CAMEL 作者李国豪、爱丁堡大学副教授 Stefano V. Albrecht 等领域专家共同交流。论坛内容涵盖了大模型驱动的群体智能、大模型智能体操作系统等方向。

钱忱博士后提出了进阶智能体的发展愿景，即从独立的实体进化为可协作和可演化的系统，通过集体智慧实现可涌现的效率和结果。他还提出了新的软件工程技术 ChatDev，以及多智能体协作网 MacNet。

张永锋教授强调了 AIOS（人工智能操作系统）的重要性，它在内核层中针对大语言模型（LLM）进行了优化，采用分层架构，并提供了丰富的工具箱以支持开发者创建复杂的 Agent 应用程序。

李国豪认为未来的 AGI 不是由单一模型实现，而是由多智能体组成的系统。他提到了 CAMEL-AI 项目，该项目通过 Role Playing Session 和 Human Input 来完成任务，并通过实验验证了多 Agent 系统的有效性。

Stefano V. Albrecht 教授介绍了他的研究团队在深度强化学习和大语言模型领域的工作，包括 CMID、SePS、仓库自动化和自动驾驶技术的应用，以及 LLM-Personalize 框架的开发。他提出未来研究应聚焦于大型、多样化的控制数据集以推进大决策模型的发展。

回放链接：https://event.baai.ac.cn/live/788

https://mp.weixin.qq.com/s/vfquvAueG7pNNGcCx7Efiw

生成模型最新进展丨2024智源大会精彩回顾

在 2024 智源大会的「生成模型」论坛上，代表着人工智能发展前沿的专家们分享了最新的研究成果。中国人民大学副教授李崇轩和清华大学副教授陈键飞担任论坛主席，邀请了多位专家进行报告。卢志武教授介绍了基于 DIT 架构的视频生成工作，强调了视频生成的困难点和未来发展趋势。字节跳动 GenAl 研究员江毅报告了视觉自回归框架 VAR，并展示了其在图像生成方面的优异表现。微软亚洲研究院视觉计算组研究员古纾旸博士探讨了视觉生成中的若干问题，提出了对视觉信号拆解的思考。上海交通大学邓志杰教授分享了大模型的高效并行推理方法。论坛还包括了圆桌讨论，围绕生成模型的未来发展和能力提升进行了深入探讨。观众提出的问题涉及了生成模型在特定应用场景中的挑战和解决方案。

https://mp.weixin.qq.com/s/sh-0zSxcmf56a0wR3y8bVg

智源独家丨谢赛宁：AI是否需要更强的视觉基础来实现理解和意义?

谢赛宁介绍了多模态大模型的最新研究进展。他指出，现有的语言模型缺乏视觉感知能力，导致在理解和处理图像时存在显著缺陷。团队提出了基于视觉搜索的SEAL框架，通过融合视觉和语言模型，提高了多模态模型的性能。关键技术包括使用CLIP和自监督视觉编码器DINOv2，优化视觉特征的融合策略，以及引入V*Bench基准测试评估模型的视觉搜索能力。研究表明，视觉基础对于提升AI的理解和语义表达至关重要。

https://mp.weixin.qq.com/s/EM1DPmB3VF-El30Rxudd8g

HPN 7.0：阿里云新一代万卡集群网络架构

阿里云推出的 HPN 7.0 智算集群网络架构，通过双上联、双平面设计和多轨通信技术，显著提升了大规模 GPU 集群的通信效率和系统可靠性。双上联技术通过两个 200Gbps 的上行链路和网卡，使得每个 GPU 节点都能在出现故障时自动切换到备用链路，从而减少了训练任务中断的风险。双平面设计解决了 ECMP 哈希极化问题，确保了流量均匀分布，而多轨通信策略则通过综合利用 NVLink、NVSwitch 和高速网络，实现了更高效的节点间通信。这些技术细节的综合应用，为大规模 AI 模型训练提供了强大的网络支持，推动了 AI 计算能力的飞跃。

https://mp.weixin.qq.com/s/DfpIVQanOiWUQiLdZ_sgUQ

南栖仙策秦熔均博士接受赛迪网专访：探索AI数字化应用场景让控制系统更“聪明”

秦熔均博士，南京大学计算机科学与技术系博士，南栖仙策 CTO，专注于强化学习算法和理论研究。他在 2018 年创立了南栖仙策公司，致力于将强化学习技术应用于实际业务场景，如工业制造、工业控制和促销等，取得了显著的效果。在专访中，秦博士介绍了他的研究背景和兴趣，强调了 AI 控制与传统控制的不同，特别是在动态环境适应性和数据依赖性方面的优势。他认为智能控制的进一步发展需要数字化和信息化的基础，以及解决数据获取和使用的挑战。秦博士还讨论了大模型在工业领域的应用前景，以及他的公司在汽车减排和水务控制等领域的成功案例。最后，他对未来在智能化领域的研究和发展表示乐观，并期待工业智能化的大趋势能够推动国家工业的升级和转型。

https://zhuanlan.zhihu.com/p/704713606?utm_psn=1787559843906850817

HuggingFace&Github

Jetson Copilot

Jetson Copilot 是一个应用程序，展示了在 Jetson 设备上运行开源大型语言模型（LLM）以及使用 RAG 技术整合本地知识索引，从而增强 LLM 的能力，构建一个智能的本地 AI 助手。它结合了 Docker 容器、Ollama 服务器和 Streamlit 应用程序，为用户提供了一个可以自行构建索引并与之交互的平台，展现了边缘设备上部署 AI 系统的示例。