大模型日报(8月17~18日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(8月17~18日 学术篇)

学习

01

预训练一个72b模型需要多久?

文章深入探讨了预训练一个 72B 参数规模的语言模型(如 Qwen2)所需的时间、资源和计算能力。具体而言,使用 7T tokens 的数据集和 6000 张 A100 GPU,完成一个 epoch 大约需要 30 天。文章提供了算力需求的计算公式 3T(2.6e6s + 2P),其中 T 是数据集的 token 数量,P 是模型参数量,s 是序列长度。详细分析了 Attention 层和 FFN 层的计算量,指出大模型的计算量主要取决于矩阵乘法,反向传播过程需要的算力是正向传播的两倍。同时,提到 batch size 在超过某个阈值后对训练时间和计算量无影响。最后,通过实际案例和对比其他大型模型的训练过程,验证了理论计算的准确性,并指出由于序列长度的增加,算力需求可能被高估,但不会超过 1.6 倍。
大模型日报(8月17~18日 学术篇)https://mp.weixin.qq.com/s/E0OIgufVW8dm-fRhlRoA6A
02

3D DRAM 集成 AI 处理:一项可能取代现有 HBM 的新技术

NEO 半导体公司推出的 3D X-AI 芯片技术,通过集成 AI 处理功能于 3D DRAM 内存中,实现了数据在内存层直接处理的能力,有效避免了传统 HBM 和 GPU 之间的数据传输瓶颈。该芯片采用 300 层结构,内置 8,000 个神经元电路,能够提供 128GB 容量和高达 10 TB/s 的 AI 处理性能。与传统 HBM 相比,3D X-AI 芯片提升了性能 100 倍,增加了内存密度 8 倍,并减少了 99% 的功耗。此外,通过堆叠 12 个芯片并采用 HBM 封装技术,可以实现 120 TB/s 的处理吞吐量,极大地提升了 AI 处理效率。
大模型日报(8月17~18日 学术篇)https://zhuanlan.zhihu.com/p/714967226?utm_psn=1808194402641928194
03

使用 Llama.cpp 或 Gemini 的 API 强制 JSON 输出的教程

本文教程详细说明了如何利用 Llama.cpp 和 Gemini 两种 AI 模型的 API 来实现 JSON 数据的强制输出。文章首先对 Llama.cpp 和 Gemini 进行了简要介绍,阐明了它们在处理 AI 问题时的不同特性。接着,通过示例代码,指导读者如何编写 Python 脚本来发起 API 请求,并处理返回的 JSON 格式数据。教程强调了在实际操作中可能遇到的技术难点,如网络连接问题、数据解析错误等,并提供了解决这些问题的技术细节。
https://zhuanlan.zhihu.com/p/715001752?utm_psn=1808194075154862080
04

Nsight Compute 使用指南

Nsight Compute 是 NVIDIA 推出的一款专业性能分析工具,旨在帮助开发者优化 CUDA 应用程序。该工具能够详细追踪和分析 GPU 的运行情况,包括内核执行、内存访问模式和计算资源的使用效率。通过对性能数据的采集和分析,Nsight Compute 提供了源代码注释功能,直观地在代码中标出性能瓶颈和优化建议。此外,API 探查器功能帮助开发者监控和调试 CUDA API 调用,而事件分析则允许对 GPU 执行事件进行微观级别的检视。
大模型日报(8月17~18日 学术篇)https://zhuanlan.zhihu.com/p/715022552?utm_psn=1808193403386744833
05

Survey of Deep Learning AcceleratorsSurvey of Deep Learning Accelerators

本综述深入探讨了超过 100 款边缘 AI 芯片,涵盖了数据流架构 NPU、神经形态处理器和存算融合 PIM 芯片。性能方面,MobileEye 的 EyeQ6、Horizon 的 Journey 5 和 Nvidia 的 Jetson Orin 处理器表现最优。神经形态处理器在特定计算任务上高效,但在深度学习应用中的适应性尚未完全显现。PIM 架构在相同功耗和芯片尺寸下,性能优于数据流或神经形态处理器。未来的发展方向可能是将先进的深度学习算法部署在非冯・诺依曼计算范式中,实现边缘设备上的低功耗计算。当前的数据流处理器可能无需更改即可处理这些应用程序,而 PIM 和神经形态技术可能需要进一步的增强功能。
大模型日报(8月17~18日 学术篇)https://zhuanlan.zhihu.com/p/714927573?utm_psn=1808192899151716352
06

大模型微调炼丹心得十问

本文深入探讨了大模型微调的关键技术细节,包括模型选择、数据预处理、训练策略和评估方法。在模型选择上,强调选择与任务最为匹配的预训练模型,以确保微调效率和效果。数据预处理方面,提到了对数据质量的重要性,包括数据清洗、分词和标准化处理。在训练过程中,文章指出了学习率调整、批量大小选择和正则化技术等策略,以防止过拟合并提升模型性能。此外,文章还强调了使用适当的评估指标来衡量模型在特定任务上的表现,并通过实际案例展示了如何解决微调过程中遇到的技术难题。
大模型日报(8月17~18日 学术篇)https://zhuanlan.zhihu.com/p/704809979?utm_psn=1808193035047141376
07

我没有大模型经验,可以给个机会吗?

文章强调,在求职大模型相关岗位时,候选人虽然可能缺乏实际的大模型训练经验,但可以通过展示对技术细节的深入理解和掌握来弥补这一不足。作者 Quokka 建议,候选人应该具备扎实的基础知识,积极探索大模型的相关技术,如实现和比较不同流水算法的性能、自行实现算子、理解不同 tokenizer 的差异,以及在非 Python 语言上的开发能力。此外,通过分析他人训练的模型和实现如五子棋 AI 等项目,可以证明自己的技术能力和潜力。顶会论文虽然有助于面试,但并非总能反映候选人的实际技术水平,只有真正突出的论文才具有显著意义。面试时,更应该突出个人的技术细节和实践经验,以此来展示自己的潜力和对大模型领域的热情。
https://zhuanlan.zhihu.com/p/715031517?utm_psn=1808192368475787266
HuggingFace&Github

01

nous

Nous 是一个开源的 TypeScript 平台,用于构建自主 AI 代理和基于 LLM 的工作流。它通过自动化各种流程和支持请求、审查代码以及协助大型重构等功能来增强实际生产力。Nous 设计了一个灵活的平台,供 TypeScript 社区扩展和支持您选择的用例和集成。
大模型日报(8月17~18日 学术篇)https://github.com/TrafficGuard/nous
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/13566.html

Like (0)
Previous 2024-08-16 22:49
Next 2024-08-19 14:13

相关推荐