大模型日报(6月22~23日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月22~23日 学术篇)

学习

01

优化 Character.AI 的 AI 推理

Character.AI 采用了记忆高效的架构设计,通过多查询注意力、混合注意力水平和跨层 KV-sharing 等技术,减少了 KV 缓存大小,而不牺牲质量。此外,Character.AI 开发了一种高效的状态缓存系统,用于在聊天轮次之间缓存注意力 KV,这对于长对话尤其有效,大大降低了推理成本。同时,Character.AI 使用 int8 量化来优化训练和服务,通过原生的 int8 精度训练模型,避免了训练 / 服务之间的差异,并显著提高了训练效率。
通过这些创新,Character.AI 实现了前所未有的推理效率,减少了推理成本,使得 LLMs 能够更容易地在大规模服务。自 2022 年底以来,服务成本已经减少了 33 倍,如果使用主流商业 API,成本将至少增加 13.5 倍。Character.AI 正在继续构建一个 LLMs 驱动创新和增强全球用户体验的未来。
大模型日报(6月22~23日 学术篇)https://research.character.ai/optimizing-inference/
02

Agent is all you need,智能体最前沿丨2024智源大会精彩回顾

2024 年 6 月 14 日,智源大会「Agent」专题论坛召开,由清华大学副教授刘知远主持,邀请了清华大学博士后钱忱、美国罗格斯大学计算机科学学院副教授张永锋、CAMEL 作者李国豪、爱丁堡大学副教授 Stefano V. Albrecht 等领域专家共同交流。论坛内容涵盖了大模型驱动的群体智能、大模型智能体操作系统等方向。
钱忱博士后提出了进阶智能体的发展愿景,即从独立的实体进化为可协作和可演化的系统,通过集体智慧实现可涌现的效率和结果。他还提出了新的软件工程技术 ChatDev,以及多智能体协作网 MacNet。
张永锋教授强调了 AIOS(人工智能操作系统)的重要性,它在内核层中针对大语言模型(LLM)进行了优化,采用分层架构,并提供了丰富的工具箱以支持开发者创建复杂的 Agent 应用程序。
李国豪认为未来的 AGI 不是由单一模型实现,而是由多智能体组成的系统。他提到了 CAMEL-AI 项目,该项目通过 Role Playing Session 和 Human Input 来完成任务,并通过实验验证了多 Agent 系统的有效性。
Stefano V. Albrecht 教授介绍了他的研究团队在深度强化学习和大语言模型领域的工作,包括 CMID、SePS、仓库自动化和自动驾驶技术的应用,以及 LLM-Personalize 框架的开发。他提出未来研究应聚焦于大型、多样化的控制数据集以推进大决策模型的发展。
回放链接:https://event.baai.ac.cn/live/788
大模型日报(6月22~23日 学术篇)https://mp.weixin.qq.com/s/vfquvAueG7pNNGcCx7Efiw
03

生成模型最新进展丨2024智源大会精彩回顾

在 2024 智源大会的「生成模型」论坛上,代表着人工智能发展前沿的专家们分享了最新的研究成果。中国人民大学副教授李崇轩和清华大学副教授陈键飞担任论坛主席,邀请了多位专家进行报告。卢志武教授介绍了基于 DIT 架构的视频生成工作,强调了视频生成的困难点和未来发展趋势。字节跳动 GenAl 研究员江毅报告了视觉自回归框架 VAR,并展示了其在图像生成方面的优异表现。微软亚洲研究院视觉计算组研究员古纾旸博士探讨了视觉生成中的若干问题,提出了对视觉信号拆解的思考。上海交通大学邓志杰教授分享了大模型的高效并行推理方法。论坛还包括了圆桌讨论,围绕生成模型的未来发展和能力提升进行了深入探讨。观众提出的问题涉及了生成模型在特定应用场景中的挑战和解决方案。
大模型日报(6月22~23日 学术篇)https://mp.weixin.qq.com/s/sh-0zSxcmf56a0wR3y8bVg
04

智源独家丨谢赛宁:AI是否需要更强的视觉基础来实现理解和意义?

谢赛宁介绍了多模态大模型的最新研究进展。他指出,现有的语言模型缺乏视觉感知能力,导致在理解和处理图像时存在显著缺陷。团队提出了基于视觉搜索的SEAL框架,通过融合视觉和语言模型,提高了多模态模型的性能。关键技术包括使用CLIP和自监督视觉编码器DINOv2,优化视觉特征的融合策略,以及引入V*Bench基准测试评估模型的视觉搜索能力。研究表明,视觉基础对于提升AI的理解和语义表达至关重要。
大模型日报(6月22~23日 学术篇)https://mp.weixin.qq.com/s/EM1DPmB3VF-El30Rxudd8g
05

HPN 7.0:阿里云新一代万卡集群网络架构

阿里云推出的 HPN 7.0 智算集群网络架构,通过双上联、双平面设计和多轨通信技术,显著提升了大规模 GPU 集群的通信效率和系统可靠性。双上联技术通过两个 200Gbps 的上行链路和网卡,使得每个 GPU 节点都能在出现故障时自动切换到备用链路,从而减少了训练任务中断的风险。双平面设计解决了 ECMP 哈希极化问题,确保了流量均匀分布,而多轨通信策略则通过综合利用 NVLink、NVSwitch 和高速网络,实现了更高效的节点间通信。这些技术细节的综合应用,为大规模 AI 模型训练提供了强大的网络支持,推动了 AI 计算能力的飞跃。
大模型日报(6月22~23日 学术篇)https://mp.weixin.qq.com/s/DfpIVQanOiWUQiLdZ_sgUQ
06

南栖仙策秦熔均博士接受赛迪网专访:探索AI数字化应用场景 让控制系统更“聪明”

秦熔均博士,南京大学计算机科学与技术系博士,南栖仙策 CTO,专注于强化学习算法和理论研究。他在 2018 年创立了南栖仙策公司,致力于将强化学习技术应用于实际业务场景,如工业制造、工业控制和促销等,取得了显著的效果。在专访中,秦博士介绍了他的研究背景和兴趣,强调了 AI 控制与传统控制的不同,特别是在动态环境适应性和数据依赖性方面的优势。他认为智能控制的进一步发展需要数字化和信息化的基础,以及解决数据获取和使用的挑战。秦博士还讨论了大模型在工业领域的应用前景,以及他的公司在汽车减排和水务控制等领域的成功案例。最后,他对未来在智能化领域的研究和发展表示乐观,并期待工业智能化的大趋势能够推动国家工业的升级和转型。
大模型日报(6月22~23日 学术篇)https://zhuanlan.zhihu.com/p/704713606?utm_psn=1787559843906850817
HuggingFace&Github

01

Jetson Copilot

Jetson Copilot 是一个应用程序,展示了在 Jetson 设备上运行开源大型语言模型(LLM)以及使用 RAG 技术整合本地知识索引,从而增强 LLM 的能力,构建一个智能的本地 AI 助手。它结合了 Docker 容器、Ollama 服务器和 Streamlit 应用程序,为用户提供了一个可以自行构建索引并与之交互的平台,展现了边缘设备上部署 AI 系统的示例。
大模型日报(6月22~23日 学术篇)https://github.com/NVIDIA-AI-IOT/jetson-copilot
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14564.html

Like (0)
Previous 2024-06-22 23:56
Next 2024-06-24 18:59

相关推荐

  • 大模型日报(9月12日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-12
    235
  • 大模型日报(7月22日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-22
    221
  • AI学术 | 解决技术问题, Claude和ChatGPT哪家强?

    Claude和ChatGPT这两个AI工具,在学术领域的工作当中到底哪家强呢? 接上一篇文章 《AI学术 | 写Research Proposal, Claude和ChatGPT哪…

    2023-10-18
    134
  • 大模型日报(8月31日~9月1日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-01
    270
  • 截止目前最全的ChatGPT调教指南!

    你会问问题吗? ChatGPT 中文调教指南如下 ChatGPT模型是由OpenAI训练的大型语言模型,能够生成类人文本。通过向它提供提示,它可以生成继续对话或扩展给定提示的响应。…

    2023-02-13
    206
  • 大模型日报(5月15日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-15
    183
  • 我动手尝试了TruthGPT,和ChatGPT相比…

    原来,伊隆马斯克大肆宣传的TruthGPT已经可以试用了!? 昨天发了一篇文章,《TruthGPT即将横空出世,ChatGPT害怕吗?》有好几个朋友私信给我说觉得很玄乎,实际上我在…

    2023-04-20
    199
  • 有了ChatGPT4的Copilot,再也不用担心我的Office了!

    世界的变化是如此之快,静观其变,还是捷足而上,那都是选择。 微软今天宣布了一款新的基于人工智能的 Copilot,旨在帮助人们生成文件、电子邮件、演示文稿等内容。这款由 OpenA…

    2023-03-17
    195
  • ChatGPT不懂你的Prompts?来试下FusionAI!

    你有没有遇到过输入各种指令,英语的也好,中文的也好,无论你怎么修改这蹩脚的英文单词,亦或者是修辞自己的母语,总之,ChatGPT就是没有读懂你?或者说,它给出的答案,你总是觉得不够…

    2023-04-05
    174
  • Google Colab中的AI Monica真的无敌了,轻松编写和调优程序!

    这两天刚好在调程序中,无意中用到了Google Monica,真的让人惊叹不已! 先给结论:编写、调优程序,解释运行结果基本无障碍! Colab + Monica的流畅和无缝程度,…

    2023-06-21
    195