大模型日报(4月20~21日 资讯篇)

欢迎观看大模型日报站(活动录屏复盘聚集地)

大模型日报(4月20~21日 资讯篇)

推特

01

Zuck在Dwarkesh的采访中谈AI:从现在开始,进展将是渐进式的

概要: AI寒冬已至。Zuck是一个现实主义者,他认为从现在开始,进展将是渐进式的。2025年前不会有通用人工智能(AGI)出现。
  1. Zuck基本上是一个现实世界的增长悲观主义者。他认为能源的瓶颈很快就会出现,需要几十年才能解决。因此,AI的增长将受到现实世界限制的制约。
“我实际上认为在我们达到那个目标之前,你会遇到能源限制。我不认为有人建造了千兆瓦级的单一训练集群。你会遇到这些在现实世界中最终会变得更慢的事情。”
“我只是认为有所有这些物理限制使得这不太可能发生。我只是没看到这会成为现实。我认为我们将有时间来适应一点。”
  1. 如果模型本身就是产品,Zuck会停止开源。
“也许模型最终更像是产品本身。我认为这时候,是否开源就是一个更棘手的经济考量了。”
  1. 相信他们很快就能从英伟达GPU转向定制芯片。
“当我们能够将其转移到我们自己的芯片上时,我们现在能够仅将更昂贵的英伟达GPU用于训练。希望在某个时候,我们自己会有芯片,可以用它来首先训练一些更简单的东西,然后最终训练这些非常大的模型。”
观点
总的来说,我对这次采访的负面程度感到惊讶。
A) 能源 – Zuck对支持计算增长所需的现实世界增长持悲观态度。与此同时,过去十年来,单位能耗的原始计算能力每2年翻一番。Jensen也意识到了这一点,很难相信他没有想到一些前进的道路,在那里他必须继续这个坡度。
在 http://x.ai 上,发布公告写道:”在 xAI,我们把最大限度地提高每瓦特的有效计算作为我们努力的重点。”
因此,能效(包括算法和其他方面)显然是各公司将关注的领域。与此同时,Zuck 计划很快停止使用英伟达芯片,基本上认为拥有最先进计算集群份额的 AI 价值将下降。
B)对AGI持负面看法
从根本上说,Zuck
不相信模型,即AI本身,会成为产品。
产品是背景、每个用户的友谊网络图、审核、记忆、基础设施。
这使他可以自由发布开源模型,因为他已经完成了面向用户的其余部分。
一个真正的AGI
一个小模型长期学习并陪伴用户
同时保持自己的状态
有一套它能做什么或不能做什么的规则
而不是频繁地从中央服务器更新
这对Meta的业务将是不利的
会导致他们重新评估自己正在做的事情
大模型日报(4月20~21日 资讯篇)https://x.com/8teAPi/status/1781480713394737238

Jim Fan评价:不会AI寒冬,在物理世界中具身化的智能将成为创造经济价值的强大动力

AI寒冬?不会。即使GPT-5达到瓶颈,机器人技术还没有开始大规模应用。在物理世界中具身化的智能将成为创造经济价值的强大动力。友情提醒大家,大语言模型(LLM)并非AI的全部。它只是一个更大拼图中的一块。
大模型日报(4月20~21日 资讯篇)https://x.com/DrJimFan/status/1781726400854269977
02

Karpathy分享llm.c更新:用约2000行干净的C/CUDA代码编写的单文件现在可以在GPU上训练 GPT-2(124M),速度与PyTorch相当

🔥llm.c更新:我们用约2000行干净的C/CUDA代码编写的单文件现在可以在GPU上训练 GPT-2(124M),速度与PyTorch相当(fp32,还没有flash attention)。
https://github.com/karpathy/llm.c/blob/master/train_gpt2.cu
在我的A100上,llm.c的每次迭代耗时78ms,PyTorch为80ms。请记住,这是fp32精度,还没有使用flash attention,并且PyTorch版本略有些旧(2.1.0)。
  • 它直接用C/CUDA实现了训练循环和反向传播。
  • 它可以即时编译和运行。不再需要”点击运行后等待数十秒,原因不明”,也不需要堆砌大量难以理解的抽象来构建一个宇宙。
  • 它消除了对Python解释器和深度学习库的需求。
  • 它在开始时一次性分配所有内存。
  • 这非常酷。
怎么做到的:
要实现这一点,我们编写了许多自定义CUDA内核,手动完成这些工作(而不是使用aten/PyTorch的Tensor操作和torch.compile等)有点像用汇编语言编程。你会花大量时间查看更多的汇编代码(CUDA PTX/SASS)。但这也意味着我们可以对代码进行超优化,并可能探索torch.compile难以实现的优化,这太棒了。以下是最近几天完成的一些优化示例:
  • 在反向传播中,我们巧妙地控制内存消耗,只使用传播梯度所需的几个缓冲区,节省了内存。
  • 一个融合的分类器内核完成最后一层前向传递、损失计算,并启动反向传递。
  • 对所有相关内核进行了许多改进,包括在注意力模块中通过精心限制自回归掩码内的执行来获得性能提升。
  • 使用cuBLAS(Lt)进行所有繁重的矩阵乘法,并融合偏置累加。
非常感谢两位从互联网某处出现并帮助这个开源项目的CUDA专家,ngc92和ademeure。我们在Github、CUDAMODE的Discord和我的”NN Zero to Hero”上讨论。
下一步:
  • 进一步优化我们的fp32内核,尤其是切换到flash attention。
  • 混合精度训练(从fp16开始)。
  • 多GPU训练(从DDP开始)。
  • 设置数据和评估,以进行适当的GPT-2训练
  • 🚀 复现GPT-2(1.6B)的训练过程
  • 更现代的架构等(Llama 3?)
  • 编写文档、制作视频,练习从零开始构建这一切。
图1:赏心悦目的内容:内核的时间分布图(一层)。NVIDIA cutlass内核的计算吞吐量很高,占用了大部分运行时间 => 不错。
大模型日报(4月20~21日 资讯篇)https://x.com/karpathy/status/1781387674978533427
03

Meta Jason Liu分享:对规划代理的三步思考

这是我对规划代理的三步思考:
https://youtube.com/watch?v=W31UMLHcqc4…
  1. 使用推荐系统,根据请求预测必要的工具。
  2. 基于请求、检索到的工具及其描述,生成执行计划(有向无环图DAG)。通过对话反复优化计划。
  3. 微调模型,使其能够根据输入和工具预测最终计划,使用成功运行的计划示例,并根据需要实现单个边。目标是创建一个独立于确定性执行的概率性计划构建过程,生成用于检索和少样本示例的产物,最终实现单次输出预测。
这个三步流程的核心思想是:首先通过推荐系统智能选择合适的工具,然后生成初步的执行计划,通过与用户的交互对话来迭代优化计划。在积累了足够的成功执行计划样本后,就可以训练机器学习模型来根据输入直接预测最优的执行计划,实现端到端的自动化。这种方法把计划的生成和执行解耦,利用检索和少样本学习等技术,最终达到单次预测输出的目标。
大模型日报(4月20~21日 资讯篇)https://x.com/jxnlco/status/1781811260511719551
04

Perplexity CEO Aravind:关于Llama 3最印象深刻的是,将知识和推理能力很好地压缩到密集8B/70B模型中,而不是扩展MoE

关于Llama 3最让我印象深刻的是:当其他人都在扩展稀疏的混合专家模型(MoEs)时,他们是如何将如此多的知识和推理能力很好地压缩到一个密集的8B和70B模型中的。这并不意味着拥有大量GPU不重要。考虑到为了获得正确的数据组合需要运行多少次迭代,GPU可能更加重要。但这绝对告诉你,机构可以拥有很多GPU,但使用效率低下。我真的很期待更大、上下文更长的Llama 3模型。

大模型日报(4月20~21日 资讯篇)https://x.com/AravSrinivas/status/1781730552607039747

05

Ng分享:Llama 3 70B 模型从 M1 Max 笔记本传输到手机

Llama 3 70B 模型从我的 M1 Max 笔记本传输到我的手机
使用 mlx 实现了大约 7.6 token/s 的速度。相当于在家里拥有你自己的小型 GPT-4

大模型日报(4月20~21日 资讯篇)https://x.com/localghost/status/1781847388879220742

06

Anton:Meta 发布接近 GPT-4 级别的模型确实在压低 token 的价格,因为任何人都可以拿到权重并优化运行时

Meta 发布接近 GPT-4 级别的模型确实在压低 token 的价格,因为任何人都可以拿到权重并优化运行时,例如 groq、togetherapi、fireworks 等。这对 OpenAI 肯定不利。
我认为训练强大的模型更难,需要更大的前期投入。它仍然需要通过严格的测试/研究来完成,但也掺杂了一些运气和 YOLO(舍我其谁)的尝试。这与优化运行时有点不同。
大模型日报(4月20~21日 资讯篇)
大模型日报(4月20~21日 资讯篇)https://x.com/abacaj/status/1781443464246559180
07

HuggingFace发布FineWeb:15万亿token的高质量网络数据

我们刚刚发布了🍷FineWeb:15万亿token的高质量网络数据。
我们对2013年至2024年间所有的CommonCrawl数据进行了过滤和去重。
在FineWeb上训练的模型性能优于RefinedWeb、C4、DolmaV1.6、The Pile和SlimPajama!
大模型日报(4月20~21日 资讯篇)https://x.com/gui_penedo/status/1781953413938557276

资讯

01

再见,AI意识先驱:Daniel Dennett

丹尼特在哲学领域做出了重大的贡献,被称为“进化论四骑士”之一,是近二十年来西方新无神论运动的领军人物。他的巨作《意识的解释》被认为是心智哲学甚至当代哲学中最重要的著作之一,全方位地对意识现象做了探索。而他对于“意识”独树一帜的见解,正是源自他与计算机和人工智能颇深的渊源,广泛吸收了来自神经科学、心理学、人工智能等领域的信息。与此同时,他的思想和言论也深刻地影响着人们对人工智能、意识和思想的理解。
大模型日报(4月20~21日 资讯篇)https://mp.weixin.qq.com/s/q_NHqYVQeap93k2JQ5d-lg
02

史上首次!AI驾驶战机成功与人类飞行员空中「狗斗」

AI 操纵的战斗机又一次进化了!近日,美国 DARPA 透露称,去年 9 月一架由 F-16 改装而成的 AI 验证机,有史以来首次成功地在视距内与人类飞行员进行空中缠斗(俗称狗斗),让我们看到了人工智能在空战领域的应用前景。该验证机代号为 X-62A VISTA,是一架 F-16D(Block 30)双座飞机,人类飞行员同样驾驶一架 F-16 战斗机。在对抗中,DARPA 称,虽然 X-62A VISTA 上的人类飞行员可以接管 AI 系统,但在任何时候都不需要激活安全开关。从视频中可以看到,两架战斗机展示了「高视角机头对机头交战」,逼近时相对速度达到 1200 英里 / 时(约 1931 公里 / 时),两机最近时相距仅为约 610 米。对抗过程中验证了 AI 驾驶战机的防御机动、攻击时缠斗等战斗技能,不过遗憾的是 DARPA 没有透露哪架飞机赢得此次战斗。对此,有人表示终于嗅到了「终结者」的味道。
大模型日报(4月20~21日 资讯篇)https://mp.weixin.qq.com/s/EAKZPDc1MJnG6fXd3F2DpQ
03

星海图高继扬:人形机器人不是具身智能的唯一答案

具身智能已经成为人工智能领域最值得期待的一大赛道之一。现在,智能机器人已经可以自主实现咖啡拉花、搬箱子、叠被子,甚至能够像人与人一样通过自然语言交互,理解人类的意图并做出调整。国内外众多科技公司正在推动机器人变得更加 “智能”,希望它最终可以完成各种任务,能与环境交互感知,拥有自主规划、决策、行动、执行能力。但以终为始,什么样的路径才有可能推动具身智能产品抵达如此高度的智能?星海图 CEO 高继扬(提出了他们的路径想法:对现阶段的具身智能产品而言,代表智能的 “大脑” 比代表执行的 “身体” 更为重要。如果要抵达具身智能的终局,需要针对具体场景推出合适的产品,完成商业闭环,从而得到更多来自物理世界的数据,最终不断提高机器人的 “智能” 程度。
大模型日报(4月20~21日 资讯篇)https://mp.weixin.qq.com/s/onUEdlmvwrjzJ5sWuobAqQ
04
4

刚刚,a16z 提拔了一位华人女性合伙人负责 12.5 亿美元 AI 基础设施基金!她还是 ElevenLabs 投资人

Jennifer Li 于 2018 年加入 a16z,本周升任为 a16z 第 27 位普通合伙人,在 30 岁出头就达到了这一职业里程碑,将在 a16z 新成立的 12.5 亿美元 AI 基础设施基金扮演关键角色,该基金由资深普通合伙人 Martin Casado管理。据悉,Jennifer Li 在中国北方长大,后移居美国攻读更高学位,拥有卡内基梅隆大学软件工程硕士学位和伦斯勒理工学院技术管理硕士学位。
大模型日报(4月20~21日 资讯篇)
https://mp.weixin.qq.com/s/sqnQCEWUTj3yp2GybgJxwg
05

上海交通大学人工智能学院来了!还将与华为、科大讯飞、商汤科技等9家单位进行校企合作

今日,上海交通大学人工智能学院揭牌成立。上海交大已经成为AI创业者们的“摇篮”,部分头部AI企业创始人均来自于此。上海交大还与华为、科大讯飞、商汤科技、云从科技、云天励飞、壁仞科技、第四范式等9家机构签署战略合作协议。
大模型日报(4月20~21日 资讯篇)https://www.cls.cn/detail/1653079
06

大模型一定就比小模型好?谷歌的这项研究说不一定

在这个大模型不断创造新成就的时代,我们通常对机器学习模型有一个直观认知:越大越好。但事实果真如此吗?近日,Google Research 一个团队基于隐扩散模型(LDM)进行了大量实验研究,得出了一个结论:更大并不总是更好(Bigger is not Always Better),尤其是在预算有限时。近段时间,隐扩散模型和广义上的扩散模型取得的成就不可谓不耀眼。这些模型在处理了大规模高质量数据之后,可以非常出色地完成多种不同任务,包括图像合成与编辑、视频创建、音频生成和 3D 合成。尽管这些模型可以解决多种多样的问题,但要想在真实世界应用中大规模使用它们,还需要克服一大障碍:采样效率低。该团队通过实验研究了规模大小的变化对 LDM 的性能和效率的影响,其中关注重点是理解 LDM 的规模扩展性质对采样效率的影响。他们使用有限的预算从头开始训练了 12 个文生图 LDM,参数量从 39M 到 5B 不等。
大模型日报(4月20~21日 资讯篇)https://mp.weixin.qq.com/s/qmVEhCRlpwC6EnALGuGAhA
07

字节提出新一代数据集COCONut,比COCO粒度分割更密集

随着人工智能的发展,语言模型和生成模型获得了大量的成功并且在设计模型的过程中,模型的参数量也越来越大。对于细粒度理解任务,模型参数量也同样在增加。然而目前现有的数据集存在规模和精度的矛盾,例如 SA-1B 数据集中 99.1% 的 mask 都是机器生成的,但没有赋予语义的标签,而其他一些公开数据集也同样存在精度问题并且这些数据集的规模一般都比较小。近期,字节跳动提出了新一代细粒度理解的数据集,针对当代深度学习模型的设计需求,给总量为 383K 的图片进行了全景分割的人工标注,最后达到了 5.18M 张 mask,是至今最大规模的带人工标签的全景分割理解数据集,命名为 COCONut。该成果已入选 CVPR2024。
大模型日报(4月20~21日 资讯篇)https://mp.weixin.qq.com/s/_yqdnpKl03EYMgdKKwoABg
08

跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式

在日常活动中,人的运动经常引起衣服的附属运动 (secondary motion of clothes) 并因此产生不同的衣服褶皱,而这需要对人体及衣服的几何、运动(人体姿态及速度动力学等)及外观同时进行动态建模。由于此过程涉及复杂的人与衣服的非刚体物理交互,导致传统三维表征往往难以应对。近年从视频序列中学习动态数字人渲染已取得了极大的进展,现有方法往往把渲染视为从人体姿态到图像的神经映射,采用 「运动编码器—运动特征—外观解码器」的范式。而该范式基于图像损失做监督,过于关注每一帧图像重建而缺少对运动连续性的建模,因此对复杂运动如 「人体运动及衣服附属运动」难以有效建模。为解决这一问题,来自新加坡南洋理工大学 S-Lab 团队提出运动—外观联合学习的动态人体重建新范式,并提出了基于人体表面的三平面运动表征 (surface-based triplane),把运动物理建模和外观建模统一在一个框架中,为提升动态人体渲染质量开辟了新的思路。该新范式可有效对衣服附属运动建模,并可用于从快速运动的视频(如跳舞)中学习动态人体重建,以及渲染运动相关的阴影。在渲染效率上比三维体素渲染方法快 9 倍,LPIPS 图像质量提高约 19 个百分点。
大模型日报(4月20~21日 资讯篇)https://mp.weixin.qq.com/s/QKuR2BzCFSBQ0epP2b4ZWQ

产品

01

Grimo AI

Grimo AI 是一个尖端的知识引擎,它将 Obsidian、GitHub 和 Quora 的优点结合到一个产品中。使用 Grimo AI,用户可以在一个地方构建、搜索和组织知识,通过强大的模糊搜索将社区共享的见解直接分叉到存储库中,导入并提炼来自 YouTube 和 Twitter 的内容,并享受极简主义的纯文本体验,专为实现终极生产力而设计。
大模型日报(4月20~21日 资讯篇)https://go.grimo.ai/
02

Parny

Parny 旨在帮助 IT 和技术团队更高效地管理紧急信号,并确保处理紧急情况尽可能顺利和协作的 SaaS 服务。它提供了将所有监控工具的警报整合到一个简化的仪表板中、在警报触发时立即向值班人员发起实时电话、利用 AI 提供快速解决方案建议、使用独特的 #SocialOps 界面促进团队协作,以及通过全面的分析获得有价值的见解来提高运营效率等功能。
大模型日报(4月20~21日 资讯篇)https://parny.io/
03

Open Agent Studio 

Open Agent Studio 是一款桌面应用程序,旨在解决当前RPA(机器人流程自动化)工具中存在的基本障碍。该产品提供了一些新颖的功能和技术突破,包括引入了强大的新型RPA概念,如“语义目标”;Agent Recorder 可记录鼠标点击/移动和按键操作,以便使用准确的语义目标重新构建自动化图形;Live Agents 可以自动化常见流程,并根据屏幕上下文智能地建议自动化任务;Prompt To No-Code Graph 可以将开放式自动化提示转换为自定义无代码图形等。此外,Open Agent Studio 还介绍了一些关键的技术突破,包括语义目标的使用、自己的多模态模型Atlas-2、与浏览器的Websocket服务器集成等。
大模型日报(4月20~21日 资讯篇)https://www.openagent.studio
大模型日报(4月20~21日 资讯篇)

大模型日报16

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/15902.html

Like (0)
Previous 2024-04-19 23:53
Next 2024-04-21 23:55

相关推荐

  • 大模型周报:Sam对GPT5的剧透

    大模型周报是由奇绩创坛大模型日报内容精选而成,如需进入大模型日报群和空间站请文末扫码。 1 资讯 从 Altman 对 GPT-5 的剧透中,我们应该如何迎接 AGI 的下一阶段?…

    2024-01-27
    152
  • 大模型日报(五一特刊 5月1-5日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-05-05
    97
  • 又双叒叕!AI Unconference北京Ⅱ场活动报名!

         什么是      AI Unconference?   「多个AI相关主题与自由讨论」  ‍‍‍‍ 你是否厌倦了坐在台下苦等Q&A? 秉承着“参与者即Speake…

    2024-08-12
    198
  • 大模型日报(8月15日 资讯篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-15
    187
  • 大模型日报(8月8日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-08
    241
  • 大模型日报(5月21日 资讯篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-21
    128
  • 构建高质量数据集与智能数据工程平台 | 播客AI Odyssey深度对话实录

                   人工智能技术的日益深远发展,对人工智能的性能提升与技术迭代提出了新的要求。在大模型训练中,已有的研究和实践表明,增大数据量或者增大模型都能带来性能上的…

    2024-08-01
    392
  • 大模型周报 -「春节档特辑精选」:OpenAI首个视频生成模型Sora发布

    LLM SPACE祝大家开工大吉,龙年好运常在,平安健康顺遂,工作事业顺心如意! 大模型周报由奇绩创坛大模型日报精选编辑而成,如需进入大模型日报群和空间站请直接扫码。社群内除日报外…

    2024-02-18
    131
  • 大模型日报(9月13日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-13
    293
  • 大模型日报(5月27日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-05-27
    181