大模型日报（10月30日学术篇）

LLM Space • 2024-10-30 20:40 • 产品 • 105 views

潜空间活动报名

本期活动将在11月9日 10:00开始，我们邀请到的嘉宾是鱼哲，Lepton AI 创始成员，曾在阿里云担任高性能 AI 平台产品负责人，专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施，让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于不同AI产品形态对团队的挑战相关的思考，分享主题《Beyond Infra, what matters?》。除嘉宾分享外，每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流，将有机会找到志同道合、有共同创业梦想的小伙伴。报名通道已开启，欢迎扫描下方二维码报名。

信号

Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics

大型语言模型 (LLM) 是通过学习强大的可泛化算法来解决推理任务，还是记住训练数据？为了研究这个问题，我们使用算术推理作为代表性任务。通过因果分析，我们确定了模型的一个子集（电路），它解释了基本算术逻辑的大部分模型行为，并检查了其功能。通过放大单个电路神经元的水平，我们发现了一组稀疏的重要神经元，它们实现了简单的启发式方法。每个启发式识别数字输入模式并输出相应的答案。

https://x.com/omarsar0/status/1851233281116946923

Modular Duality in Deep Learning

优化理论中的一个古老观点认为，由于梯度是对偶向量，因此在不首先将其映射到权重所在的原始空间的情况下，可能无法从权重中减去它。我们在本文中认真对待这个想法，并为通用神经网络构建了这样一个对偶图。我们的地图，我们称之为模块化对偶化，为a）快速和b）可扩展的训练算法形成了统一的理论基础。模块化对偶化涉及首先根据每层的语义将算子范数分配给各层，然后使用这些分层范数在完整神经架构的权重空间上递归地导出对偶图。最后，我们推导了用于对偶嵌入、线性和 Conv2D 层的 GPU 友好算法——后两种方法基于我们提出的新矩形 Newton-Schulz 迭代。我们的迭代最近被用来设置训练 NanoGPT 的新速度记录。总的来说，我们希望我们的模块化对偶理论将为通用神经架构产生下一代快速且可扩展的优化器。

https://x.com/jxbz/status/1851328119539429487

Accelerating AI Performance using Anderson Extrapolation on GPUs

我们提出了一种利用安德森外推法来加速人工智能性能的新方法，安德森外推法是一种基于历史迭代窗口的向量到向量映射技术。通过识别产生混合惩罚的交叉点，该方法专注于减少收敛迭代，减少计算密集型但通常可缓存的迭代，分别平衡速度和内存使用与准确性和算法稳定性。在高性能计算 (HPC) 领域的可扩展性和效率扩展的推动下，我们在训练和推理方面都取得了重大改进。