大模型日报(6月20日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月20日 学术篇)

学习

01

速读 deepseek v2(二) —— 理解DeepSeekMoE

DeepSeekMoE核心创新点包括 Expert Segmentation 和 Shared Experts 隔离。在技术细节上,DeepSeekMoE 通过将 Feedforward Neural Network(FFN)的中间隐藏层分割,实现了 Expert Segmentation,从而提高了模型的专业化。同时,它采用了 Shared Experts 隔离策略,减少了不必要的参数冗余。这种架构使得 DeepSeekMoE 能够在激活少量专家的情况下,实现与密集模型相当的性能。例如,DeepSeekMoE 16B 只需 40.5% 的计算量就能达到 DeepSeek 7B 的性能水平。此外,DeepSeekMoE 在多尺度模型效果上展现了领先性能,从 2B 到 16B、再到 145B 的参数规模,均证实了其优越的性能和高效的计算特性。这些特性使得 DeepSeekMoE 成为目前领先的高效、经济 MoE 模型之一。
相关链接:
问题:如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2?
https://www.zhihu.com/question/655172528
高赞回答:
https://www.zhihu.com/question/655172528/answer/3495218670
缓存与效果的极限拉扯:从MHA、MQA、GQA到MLA
https://kexue.fm/archives/10091
大模型日报(6月20日 学术篇)https://zhuanlan.zhihu.com/p/698803333?utm_psn=1787053238647836672
02

PDEformer—基于MindSpore的偏微分方程基础模型研究与实践

华为 AI4Sci Lab 与北京大学董彬教授合作,开发了基于 MindSpore 框架的 PDEformer-1 模型,该模型能够直接输入任意 PDE 形式,并通过生成 PDE 计算图、编码图数据、解码求解的技术路径,实现对一维 PDE 的快速精准求解。PDEformer-1 利用 Graph Transformer 整合符号和数值信息,采用隐式神经表示 (INR) 描述方程解,并通过大规模预训练提升了求解效率和准确性。该模型在 Zero-shot 预测和小样本学习方面优于专家模型,并能够应用于反问题求解,如常数系数反演、源项反演和波方程速度场反演。实验结果显示,PDEformer-1 在多个测试集上表现出色,具有很高的通用性和适应性,为未来在更高维度的 PDE 求解和更广泛领域的应用奠定了基础。
大模型日报(6月20日 学术篇)https://zhuanlan.zhihu.com/p/699799519?utm_psn=1786849796672184320
03

电子/能源:算力基础设施的三大投资机会

华泰证券研究所发布的研究报告指出,AI 大模型的发展推动了算力需求的快速增长,这将带动全球服务器规模从 2024 年的 70GW 增长至 2030 年的 390GW,对应的年复合增长率为 33%。报告详细分析了三个投资机会:
  1. 半导体:预计到 2030 年,全球半导体市场规模将从 2023 年的 5250 亿美元增长到 1 万亿美元。HPC 市场需求将推动数字芯片、存储和设备等领域的增长,特别是 AI 产业化将为半导体领域带来投资机会。
  2. 能源:AI 对算力需求的拉动将直接带动数据中心建设和电力需求的增长。到 2030 年,全球数据中心用电量将达到约 2.2 万亿度电,相比 2022 年的 3.6 倍增长,看好配套设备和核电等发展机遇。
  3. 服务器等硬件:数据中心将成为 AI 模型时代的稀缺资源,服务器作为核心载体将迎来快速增长,关注 PCB、封装基板、散热、光模块、光芯片等有增量机遇的板块。
报告还提到,AI 数据中心建设的加速将推动电力体系全链条性的投资扩散,包括电网设备的扩容需求、数据中心内部配套电气装备的高增长,以及电力能源资源品需求的超预期。特别是核电作为高度稳定与清洁的能源,其与数据中心的匹配性良好,预计全球核电需求回暖将推动核电建设提速和铀矿价格的持续提升。
大模型日报(6月20日 学术篇)https://mp.weixin.qq.com/s/B840Ea1JL9vqeJ1-GicNlA
04

从高通骁龙8 Gen 4涨价看AI手机受益顺序

文章详细介绍了高通骁龙 8 Gen 4 和联发科天玑 9400 芯片的技术升级及其对 AI 手机的意义。高通骁龙 8 Gen 4 采用台积电的 3nm 工艺,预计将搭载新的 Oryon CPU 架构和升级的神经处理单元,能够支持更大规模的 AI 模型。联发科天玑 9400 则可能采用 ARM 的新一代 CPU 架构,并有望提升每时钟指令性能。两款芯片的发布预计将在 2024 年 10 月左右。
从品牌厂商的角度分析,AI 手机的成本提升可能导致高端机型的价格增加,推动手机和 PC 品牌厂商向高端化升级。在智能手机出货结构中,3500 元以上的智能手机占比持续稳定,其中苹果、三星和华为占据主导地位。国内品牌厂商在云端算力方面可能存在劣势,可能会通过与主芯片平台和内存供应商的早期对接、开放合作的大模型、以及租赁或使用国产算力资源来应对。
大模型日报(6月20日 学术篇)https://mp.weixin.qq.com/s/DDdIu2K6pt6Yww-ZXT2GYQ
05

红点InfraRed报告

报告详细介绍了由AI进步驱动的云基础设施发展的关键方面。报告突出了云基础设施的重大转变,认为由生成式AI引发的变革是迄今为止超越以往技术革命的重要平台转型。报告指出,由于AI相关工作负载的增加,超大规模云服务商的增长有所回升。此外,AI显著推动了云计算消费的增长,体现在训练和推理成本减少了十倍。这一不断演变的格局突显出从实验过渡到生产的过程中对AI特定开发工具需求的增加。报告中还特别关注了基础设施软件在市场整体疲软的情况下表现出的韧性,显示出在经济逆风中的坚挺表现。
大模型日报(6月20日 学术篇)https://www.redpoint.com/infrared/report/
06

如何建造一个 AI 数据中心

文章详细探讨了 AI 数据中心的构建要点,特别强调了技术细节方面的重要性。文章指出,AI 数据中心不仅需要大量的计算机和服务器,还需要高效的冷却系统来处理大量的热量。例如,现代 AI 计算机如 Nvidia 的 H100 GPU 每个机架可能需要超过 40 千瓦的电力,远高于普通数据中心的需求。为了应对这种高密度的热量,数据中心可能需要从传统的空气冷却转向液冷系统,甚至是直接接触芯片的冷却技术。此外,文章还提到了数据中心的能耗使用效率(PUE)指标,强调了通过提高 PUE 值来降低能耗消耗的重要性。随着 AI 技术的发展,未来的数据中心可能还会采用更先进的芯片技术,如光子芯片或超导芯片,以进一步提高计算效率和降低能耗。
大模型日报(6月20日 学术篇)https://www.construction-physics.com/p/how-to-build-an-ai-data-center
HuggingFace&Github

01

Open-Sora

团队近期发布了Open-Sora 1.2版本,其中包含了3D-VAE、矫正流和评分条件等功能。视频质量得到了大幅提升。
https://github.com/hpcaitech/Open-Sora
02

Argilla

Argilla 是一个面向 AI 工程师和领域专家的协作平台,提供高质量输出、完全的数据和模型所有权,以及提高效率的工具,并由开源社区驱动,让用户能够快速高效地创造出高质量的 AI 输出,并拥有完全的自主权。
大模型日报(6月20日 学术篇)https://github.com/argilla-io/argilla
034

SuperSonic

uperSonic融合Chat BI(powered by LLM)和Headless BI(powered by 语义层)打造新一代的BI平台。这种融合确保了Chat BI 能够与传统BI一样访问统一化治理的语义数据模型。此外,两种BI新范式都从中获得收益:
  • Chat BI的Text2SQL生成通过检索语义数据模型得到增强。
  • Headless BI的查询接口通过支持自然语言API得到拓展。
大模型日报(6月20日 学术篇)https://github.com/tencentmusic/supersonic
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14614.html

Like (0)
Previous 2024-06-20 15:05
Next 2024-06-21 12:32

相关推荐