大模型日报(6月3日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月3日 学术篇)

学习

01

Colossal-Inference 高性能 PagedAttention 算子开发实践

本文深入探讨了 Colossal-Inference 中高性能 PagedAttention 算子的开发实践。PagedAttention 算子通过将计算分解为多个小页,解决了大规模模型在内存带宽上的瓶颈问题。技术细节上,算子设计考虑了内存访问模式优化、页面管理策略以及并行计算的实现。在 Colossal-Inference 框架内,通过精细化的内存分配和异步处理技术,显著提升了算子的性能。实验结果证明了 PagedAttention 算子在不同硬件平台上的高效率,为处理大规模模型提供了有效的解决方案。
大模型日报(6月3日 学术篇)https://mp.weixin.qq.com/s/_fMIRMtPghKKNxPZCjghwQ
02

OpenAI联创:RLHF是超级智能的秘密武器

John Schulman 梦寐着梦,他在 OpenAI 孕育梦想,RLHF(强化学习与人类反馈)是提升模型智慧的秘密武器。他看好未来,认为即使在梦境中,模型也能通过梦见的数据学会新技能,拥抱连续任务的挑战。他担心数据瓶颈,却又乐观地展望了多模态数据的未来。在安全部署 AGI(人类水平的通用人工智能)方面,Schulman 提倡谨慎,强调梦中模型的梦境应与现实世界的价值观保持一致。他还分享了 ChatGPT 如何诞生,以及如何通过 RLHF 让模型具备逻辑推理和泛化能力。在技术细节上,梦中的模型梦见了代码自动化编写梦境,但也ゼ面前的样本效率和连梦续性问题。最终,Schulman 展望了ゼ梦中的 AI ゼ时代,他期待着 AI 能像真正的同事一样,与我们共同 eve 起梦想,ゼ绘未来的ゼ图。
大模型日报(6月3日 学术篇)https://mp.weixin.qq.com/s/Fz7CjN7TK7Fb08fpUMTbXg
03

数据为王:大模型预训练中的数据处理及思考—The RefinedWeb Dataset for Falcon LLM论文解读

本文深入探讨了大规模语言模型(LLM)训练中的数据处理技术。作者指出,大模型预训练依赖于海量文本数据,通常包括网页数据和专有数据。为了证明网页数据在模型训练中的潜力,研究者们采用了精细化的数据清洗和过滤策略,如使用 CommonCrawl 数据集,通过 URL 过滤、文本内容提取、语言识别和去重等步骤,从而提升数据质量。论文《The RefinedWeb Dataset for Falcon LLM》展示了仅通过网页数据训练的 Falcon-40B 模型在 Hugging Face 的大模型排行榜上取得了优异表现。文章还分析了 Scaling law 对模型训练的影响,并探讨了如何通过多模态训练和数据利用的优化来克服这一挑战。此外,作者提到了中文数据集 WuDaoCorpora 和其他多语言数据集如 The Pile 的构建过程,以及如何处理和利用这些数据。最后,文章强调了数据清洗和去重对于提升模型泛化能力的重要性,并预测了大模型训练的未来趋势。
大模型日报(6月3日 学术篇)https://zhuanlan.zhihu.com/p/641013454
04

LLM 快速发展时代下图基础模型初探

本文深入探讨了图基础模型(GFM)的概念、特点、发展历程,以及与大语言模型(LLM)的结合。GFM 作为一种在广泛图数据上预训练的模型,具有涌现和同质化的特点,能够适应多种下游图任务。文章详细介绍了图机器学习的发展历程,从浅层模型到深层模型,特别是网络表示学习在提升模型性能中的作用。针对图模型与大模型各自的局限性,提出了结合两者的新框架,如 GraphTranslator,以实现更广泛的应用。此外,文章还强调了模型的可解释性和鲁棒性的重要性,并对未来的研究方向进行了展望,包括数据量与质量的提升、骨干架构的改进、以及模型评估和杀手级应用的探索。
大模型日报(6月3日 学术篇)https://mp.weixin.qq.com/s/B62GXESrTQTz7g59WOPjSQ
05

先进封装材料迭代,玻璃基板初露锋芒

玻璃基板技术作为半导体封装材料的新进发展,在 AI 芯片等高性能计算领域展现出卓越的性能。其核心技术细节包括采用超薄玻璃材料作为核心层,通过特定材料成分调整以优化热学、电学和光学特性。玻璃基板具备高平整度与低粗糙度,适合微小尺寸半导体器件的制造。此外,玻璃基板的热稳定性强,热膨胀系数与硅接近,有助于减少封装过程中的热应力问题。在介电特性上,玻璃材料的介电常数低,损耗因子远低于硅材料,从而提高传输信号的完整性。
技术细节还涉及玻璃基板的工艺流程,如通过激光通孔技术进行打孔、层压薄膜聚合物介质、电镀、PVD、CMP 等工艺。TGV 工艺是玻璃基板制造中的关键,需要精确控制以确保通孔的质量和电导性。玻璃基板的原材料主要包括玻璃芯板、电镀化学品、油膜和 ABF 膜等。目前,全球玻璃基板的供应主要由康宁、AGC 和 NEG 等玻璃厂商掌握。
大模型日报(6月3日 学术篇)https://mp.weixin.qq.com/s/-_hfi3jxhoM-dXKZE8ZsRg
HuggingFace&Github

01

MotionLLM

MotionLLM 是一个利用 LLM 进行多模态(视频和运动)人类行为理解的框架。它采用了统一的视频-运动训练策略,结合粗粒度的视频-文本数据和细粒度的运动-文本数据,有效捕捉了人体动作的细节和语义。作者还构建了大规模的 MoVid 数据集和 MoVid-Bench 评测基准,并展示了 MotionLLM 在字幕生成、时空理解和推理能力等方面的优异性能。

大模型日报(6月3日 学术篇)https://github.com/IDEA-Research/MotionLLM

02

Video-MME

Video-MME 是首个全面评估多模态大型语言模型 (MLLMs )在视频分析任务中能力的基准测试。它涵盖了 6 大主要视觉领域和 30 个子领域的 900 个视频,总时长 256 小时,以及 2700 个人工标注的问答对,在视频时长、数据模态等方面做了全面覆盖。所有数据都是新采集的高质量人工标注,确保了多样性和质量。
大模型日报(6月3日 学术篇)https://github.com/BradyFU/Video-MME
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14918.html

Like (0)
Previous 2024-06-03 18:28
Next 2024-06-04 18:55

相关推荐