大模型日报(10月30日 学术篇)

潜空间活动报名

本期活动将在11月9日 10:00开始,我们邀请到的嘉宾是鱼哲,Lepton AI 创始成员,曾在阿里云担任高性能 AI 平台产品负责人,专注于 AI 在多个行业的落地及应用。Lepton AI 致力于建立高效可用的AI 基础设施,让团队更关注于应用构建及落地。在本次分享中鱼哲将带来关于不同AI产品形态对团队的挑战相关的思考,分享主题《Beyond Infra, what matters?》。除嘉宾分享外,每期设置了【匹配合伙人 Cofounder Matching】环节。你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流,将有机会找到志同道合、有共同创业梦想的小伙伴。报名通道已开启,欢迎扫描下方二维码报名。

大模型日报(10月30日 学术篇)

信号

01

Arithmetic Without Algorithms: Language Models Solve Math With a Bag of Heuristics

大型语言模型 (LLM)  是通过学习强大的可泛化算法来解决推理任务,还是记住训练数据?为了研究这个问题,我们使用算术推理作为代表性任务。通过因果分析,我们确定了模型的一个子集(电路),它解释了基本算术逻辑的大部分模型行为,并检查了其功能。通过放大单个电路神经元的水平,我们发现了一组稀疏的重要神经元,它们实现了简单的启发式方法。每个启发式识别数字输入模式并输出相应的答案。
大模型日报(10月30日 学术篇)
https://x.com/omarsar0/status/1851233281116946923
02

Modular Duality in Deep Learning

优化理论中的一个古老观点认为,由于梯度是对偶向量,因此在不首先将其映射到权重所在的原始空间的情况下,可能无法从权重中减去它。我们在本文中认真对待这个想法,并为通用神经网络构建了这样一个对偶图。我们的地图,我们称之为模块化对偶化,为a)快速和b)可扩展的训练算法形成了统一的理论基础。模块化对偶化涉及首先根据每层的语义将算子范数分配给各层,然后使用这些分层范数在完整神经架构的权重空间上递归地导出对偶图。最后,我们推导了用于对偶嵌入、线性和  Conv2D 层的 GPU 友好算法——后两种方法基于我们提出的新矩形 Newton-Schulz 迭代。我们的迭代最近被用来设置训练  NanoGPT 的新速度记录。总的来说,我们希望我们的模块化对偶理论将为通用神经架构产生下一代快速且可扩展的优化器。
https://x.com/jxbz/status/1851328119539429487
03

Accelerating AI Performance using Anderson Extrapolation on GPUs

我们提出了一种利用安德森外推法来加速人工智能性能的新方法,安德森外推法是一种基于历史迭代窗口的向量到向量映射技术。通过识别产生混合惩罚的交叉点,该方法专注于减少收敛迭代,减少计算密集型但通常可缓存的迭代,分别平衡速度和内存使用与准确性和算法稳定性。在高性能计算 (HPC) 领域的可扩展性和效率扩展的推动下,我们在训练和推理方面都取得了重大改进。
大模型日报(10月30日 学术篇)

https://x.com/rohanpaul_ai/status/1851367187497595139


HuggingFace&Github
01

Integuru

Integuru 是一个 AI 代理,通过反向工程平台的内部 API 来生成集成代码。它可以分析浏览器网络请求,识别执行所需的请求依赖关系,并生成可运行的 Python 代码来执行所需的操作。

大模型日报(10月30日 学术篇)

https://github.com/Integuru-AI/Integuru


推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/10/21649.html

Like (0)
Previous 2024-10-30 09:49
Next 2024-10-31 07:31

相关推荐

  • 那些悄咪咪阶跃的繁星(一)

    ‍‍ 大家好,适逢计算机视觉领域的顶会—— CVPR 2024 明天即将在西雅图开始,特工团队在研究其中入选论文的时候,也发现了一些人才流动的蛛丝马迹。于是悄咪咪系列迎来人才与高管…

    2024-06-17
    396
  • 真格天使项目「云天励飞」成功挂牌科创板

    2015 年 7 月 12 日,我第一次在徐老师家里见到陈宁博士,交流了一小时,深深感受到团队的愿景和潜力,跟徐老师和 Anna 商量了一下就当场做了投资的决策。虽然当时的 AI …

    2023-04-04
    203
  • 重磅盘点丨那些 AI 公司悄咪咪上线的产品(十四)

    👋 悄咪咪系列来到了第十四期! 这一期将放送关于蚂蚁集团、阿里、百度和快手的五款 AI 产品最新动态,越往后越精彩(量大管饱了属于是)😘  最近看到好多媒体账号也开始用起了“悄悄体…

    2024-11-09
    235
  • 用一张图理解所有的AI Native产品(下篇)

    产品二姐 读完需要 11 分钟 速读仅需 4 分钟 1     引言 上一篇文章用一张图理解所有的AI“聊天”产品(上篇)算是近期个人阅读量的最好成绩,同时也收集到了更多的资讯和想…

    2024-02-06
    285
  • 大模型日报(12月2日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-12-02
    138
  • 最全自动驾驶数据集分享系列二 | 语义分割数据集

    目前关于自动驾驶数据集你想知道的,应该都在这里了,这是「整数智能」自动驾驶数据集八大系列分享之系列二: 「本期划重点」 波恩大学推出迄今为止最大的拥有序列信息的数据集Semanti…

    2022-05-30
    391
  • 大模型日报(12月28-29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-12-29
    56
  • 押注 Agent,Sam Altman 又给 AI 打了针强心剂

    本文首发于 INDIGO 的数字镜像,经 INDIGO 老师授权,宇宙编辑部润改排版后发布于特工宇宙公众号。 出处:https://blog.samaltman.com/three…

    2025-02-12
    60
  • 整数家招人啦!

    为什么加入我们 / About Us 1. 公司愿景  我们的愿景是成为AI行业的数据合伙人。 整数智能信息技术(杭州)有限责任公司,起源自浙江大学计算机创新技术研究院,…

    2025-02-20
    208
  • 动手做Agent:产品经理与程序员的相爱想杀

    引言 以前在大厂做产品经理的时候,很多次我恨不得想要撸起袖子自己 coding。现在自己独立开始做,才知道动手开发的确比想象中困难,尽管我勉强也可以看得懂代码,真是“眼看百遍不如动…

    2024-05-27
    143