大模型日报（6月21日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区：

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」，即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

如何评价网传 ASML「掀老底」称 3nm 芯片实际为 23nm，1nm 芯片是 18nm？

ASML 公布的 EUV 光刻机路线图揭示了芯片工艺实际尺寸与标称 “nm” 尺寸之间的差异。例如，N3 工艺实际对应 23nm 的金属半间距，而非 3nm。这种命名方式自 1997 年起，已经不再以物理尺寸命名，而是基于晶体管密度和性能提升。芯片技术从平面型晶体管发展到 FinFET，未来可能采用 GAA FET 和 CFET 等新技术。尽管物理尺寸难以进一步显著缩小，摩尔定律仍然通过提高晶体管密度得到体现。行业内部对于这种命名方式的理解是一致的，认为它是行业标准，而非误导消费者。此外，类似于芯片工艺的 “等效” 标注现象在其他行业如手机相机焦距标注中也普遍存在。

https://www.zhihu.com/question/659222197?utm_psn=1786850772607029248

生成式AI设计模式：综合指南

生成式 AI 设计模式指的是一系列用于创建能够生成新数据的算法框架。这些模式包括生成对抗网络（GANs）、变分自编码器（VAEs）、自回归模型和流模型。GANs 通过生成器和鉴别器之间的对抗学习生成数据；VAEs 则通过优化变分下界来生成模糊不清的数据；自回归模型按照条件概率顺序生成数据序列；流模型则通过学习数据的连续变换来生成。这些技术在图像、音乐和文本生成等领域有广泛应用，但也面临着稳定性、效率和伦理等挑战。未来研究将致力于提高模型性能，并确保技术的负责任使用。

https://towardsdatascience.com/generative-ai-design-patterns-a-comprehensive-guide-41425a40d7d0

使用Rotation抑制LLM中的Outlier

Outlier 问题会导致模型的量化精度受损，影响模型的性能。Rotation 方法通过引入随机 Hadamard 变换，对权重矩阵和激活值进行处理，减少不相干性，从而有效抑制 Outlier。具体实现包括对 FFN 和 Attention 部分进行调整，分别在离线和在线阶段应用 Hadamard 变换。在 FFN 部分，通过将 RMSNorm 和 LayerNorm 的线性部分融合到邻近的权重矩阵中，并在 W_{down} 前插入 Hadamard 变换操作，来减少激活值的相干性。在 Attention 部分，通过对多头的 W_v 和 W_{out} 以及 Key 和 Query 应用 Hadamard 变换，来抑制 Outlier。实验结果显示，Rotation 方法在低比特量化上取得了优异的效果，并且新增操作的开销不大。这一方法为 LLM 的模型部署和推理加速提供了有效的解决方案。

https://zhuanlan.zhihu.com/p/703687847?utm_psn=1786922512019460096

MoE LLM对AI芯片通信的影响

MoE LLM 由多个专家网络组成，通过一个门控网络来决定不同输入数据应该由哪些专家网络处理。这种架构在处理复杂任务时，可以显著提高模型的性能和泛化能力。然而，MoE LLM 对于 AI 芯片的通信需求提出了更高的要求，因为它需要在多个专家网络之间高效地传输和处理数据。文章指出，为了满足 MoE LLM 的需求，AI 芯片需要具备更强的计算能力和数据传输效率，以及更高级的内存管理技术。此外，还需要设计新的通信协议和网络拓扑结构来优化专家网络之间的数据传输。

https://zhuanlan.zhihu.com/p/697278043?utm_psn=1787077197925736448

NVIDIA GeForce “Blackwell” GPU系列的可能规格泄露

NVIDIA 即将推出的 GeForce “Blackwell” GPU 系列的泄露信息揭示了五种芯片的详细规格。顶级芯片 GB202 预计配备于 RTX 5090，拥有 24,576 个 CUDA 核心，512 位 GDDR7 内存接口，以及 1,792 GB/s 的内存带宽。接下来的 GB203 梦想中可能成为 RTX 5080 的 heart，带有 10,752 个 CUDA 核心梦想中带有梦想中带有梦想中带有的 256 位内存接口。GB205 和 GB206 分别针对中端市场，具有 6,400 梦想中和 6,144 个 CUDA 核心，梦想中带有ゼ内ルフ 7 ユナイトで話す日本人，以及 192 位和 128 位的内存梦想中。入门级的 GB207 拥有 2,560 个 CUDA 核心和 128 位的 GDDR6 内存接口。这些新芯片预计会采用梦想中带有更大缓存和ゼネルフ 7 архитектуры梦想中带有ゼネルフ 7 Dreams 的改进，以提高ゼネルフ 7 绘图性能和人工智能加速能力。预计 NVIDIA 将在 2024 年第四季度向市场推出 “Blackwell” 系列。用户对于新 GPU 的性能提升表示期待，同时梦想中对于内存容量和价格策略也梦想中带有梦想中带有的关注。

https://www.techpowerup.com/323495/possible-specs-of-nvidia-geforce-blackwell-gpu-lineup-leaked

如何通过网页抓取和RAG提升大型语言模型的能力

网页抓取和检索增强生成（RAG）技术可以提升大型语言模型（LLMs）的性能。RAG 允许 LLMs 通过额外的数据集获得特定领域的知识，从而生成更准确、相关的输出。在实践中，可以使用 Python 以及 Scrapfly 等工具进行网页抓取，获取必要的数据，并结合 LlamaIndex 将这些数据集成到 LLMs 中。这种方法不仅提高了模型在特定领域的准确性，还避免了对模型进行全面重新训练的繁琐过程。通过这种方式，RAG 技术为 LLMs 的应用提供了灵活性和可扩展性，使其能够更好地适应实际需求。

https://ai.gopubby.com/how-to-power-up-llms-with-web-scraping-and-rag-975a165587f6

人形机器人引爆谐波减速器市场，盘点国内外16家核心谐波减速器产能和下游应用及客户

文章深入探讨了人形机器人技术的发展如何推动了谐波减速器市场的增长。谐波减速器作为高精度驱动系统的关键组件，在人形机器人的运动控制中扮演着至关重要的角色。文章列举了国内外 16 家主要制造商，如日本的 Mitsubishi、德国的 Siemens 等，它们通过技术创新提升了产品的性能和可靠性。这些制造商在产能上的扩张和优化，以及在精密制造、医疗设备、服务机器人等领域的广泛应用，显示了谐波减速器市场的活跃度和增长潜力。特别是在人形机器人领域，谐波减速器的高精度和高效率特性被广泛采纳，推动了该行业的技术进步。随着人形机器人技术的不断成熟，谐波减速器的市场需求预计将持续增长，尤其是在需要高精度驱动解决方案的应用场景中。

https://mp.weixin.qq.com/s/NO_qDrCXtIoshmH0XEc6Rg

HuggingFace&Github

Quest

这个项目提出了一种名为 Quest 的查询感知型 KV 缓存选择算法，该算法可以大大提高长上下文大型语言模型（LLM）的推理速度，同时仅有微小的准确性损失。具体来说，Quest 会跟踪 KV 缓存页面中的关键字值范围，并根据查询向量估计每个页面的重要性，只加载最关键的少量页面进行自注意力计算，从而实现高达 2.23 倍的自注意力加速和 7.03 倍的推理延迟减少，这为迅速增长的长上下文 LLM 应用提供了一种有效的优化方法