大模型日报(12月28-29日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月28-29日 资讯篇)

资讯

01

中国信通院发布《人形机器人产业发展研究报告(2024年)》


报告从人形机器人内涵出发,深入分析人形机器人核心技术及重点产品的发展现状和演进路径、产业布局的重点方向、应用需求和市场预期等。同时,聚焦生产制造、社会服务、特种作业等方向,梳理典型应用场景,明确不同场景对人形机器人的共性需求和差异化需求。最后,研究提出了对未来人形机器人产业发展的路径考虑,助力推动我国人形机器人产业高质量发展。
历经多年发展及技术迭代,在巨大的潜在市场需求牵引以及人工智能技术深度赋能的带动下,人形机器人“大脑”多技术路线并行探索,“小脑”整体上正在从基于模型的控制方法向基于学习的控制方法演进,肢体各组成部分的技术路线在逐步收敛。生产制造、社会服务、特种作业等方面的应用场景不断探索,产业链加速构建和优化,人形机器人已经进入了技术集中突破和应用初步试水的关键发展时期。
报告提出,在产业落地初期、应用规模较小时,人形机器人能否落地的重要因素是其智能化水平,在大规模应用阶段,成本问题成为核心因素。未来可考虑分三个阶段推动人形机器人商业化落地。第一阶段,主要通过政策牵引,深入挖掘危险作业、极端环境等高价值的特种应用场景,推动供需双方对接,定向开发一批产品并落地应用。第二阶段,加快探索工业制造、物流等制造业相关的大规模应用场景,从“替代相对简单且重复性的劳动”开始,成熟一代应用一代,在迭代中加速技术成熟、降低单体成本、提升整体性能,逐步提高对制造业场景的渗透率。第三阶段,加强人工智能与人形机器人的融合创新,实现更高水平的具身智能,并推动人形机器人进入医院、学校、商场、餐厅等服务业场景,最终走入千家万户。
大模型日报(12月28-29日 资讯篇)
https://mp.wei‍xin.q‍q.com/s/gxelchvaWA9Mo9YxZlT2fg
02

算力直降97%,GPT-3存储只用20MB

这篇论文提出了一种名为“noise_step”的新技术,使得机器学习模型能够在1.58-bit低精度下进行训练,从而在不损失精度的前提下显著减少算力和存储需求。具体而言,这种方法通过去除反向传播(backpropagation)和动量(momentum)加速步骤来降低计算开销,并结合伪随机噪声生成方法来代替传统的梯度计算过程。

传统的神经网络训练依赖反向传播算法,该算法通过逐层计算损失函数对每个权重的梯度,并更新权重以最小化损失。然而,noise_step不使用这种反向传播技术,而是通过雅可比向量积(Jacobian Vector Product, JVP)进行梯度估计。JVP方法依赖于前向传播过程中引入的随机噪声,通过计算噪声向量与目标函数梯度的对齐来估计梯度。这一过程可以在多个随机方向上重复,收集足够的信息以估算完整的梯度,从而避免了传统的反向传播。

该方法不仅减少了计算量,还降低了存储需求。由于不再需要存储传统的梯度信息,且通过噪声向量生成过程的伪随机性,可以只保存训练的种子(初始值),复现训练过程。这进一步减少了存储开销,并且可能使得模型文件体积大幅缩小,从而加速模型下载。

此外,使用noise_step训练的模型可以方便地进行微调,甚至可以对训练过程中的某些步骤进行编辑(如翻转或屏蔽),而不需要重新训练整个模型。由于训练步骤的可复现性,训练历史可以在不丢失信息的情况下被恢复和调整,这为分布式训练提供了更高效的解决方案。减少了每个训练步骤需要传输的数据量,可以显著提高分布式训练的效率,尽管这也可能增加模型泄露的风险。

总之,noise_step技术通过减少对计算和存储的依赖,提高了训练效率,降低了模型的体积和传输成本,且无需牺牲精度。它为未来的机器学习训练带来了更高的性价比,并可能成为分布式训练和模型微调的新范式。

大模型日报(12月28-29日 资讯篇)

https://mp.weixi‍n.qq.com‍/s/C‍VADIa03U2EqpirGbzklrQ

03
元资助

腾讯提出LLM量化的scaling laws

这篇来自腾讯 AI Lab 的论文讨论了低比特量化(low-bit quantization)对大语言模型(LLM)训练过程中的影响,特别是对于未充分训练和充分训练的模型的不同表现。低比特量化被认为是一种高效的方式,可以减少模型的内存占用和计算资源,同时保持与高精度(如 fp16 或 bf16)相当的性能。然而,研究表明,低比特量化的优势仅在未充分训练的 LLM 上有效,而在经过充分训练的模型上,低比特量化会导致显著的性能退化。
为了研究这一现象,研究人员量化了 1500 多个开源 LLM 检查点,探索量化引起的性能下降(QiD,quantization-induced degradation)。他们发现,模型的训练程度和大小对低比特量化后的表现有显著影响:在较小的训练规模下,低比特量化的性能退化较小,但随着训练规模的扩大和模型训练的深入,低比特量化的性能损失会显著增加。
基于对这些数据的分析,研究人员提出了一套低比特量化的 scaling laws,这些规律可以用来预测不同规模和训练数据量下的性能损失。通过建模,研究人员得出,当模型参数量、训练数据量和量化精度分别变化时,性能损失呈现不同的规律:模型越大,量化后的性能损失越小;训练数据量越大,性能损失越大;量化精度越高,性能损失越小。
他们通过实验验证了这些规律,发现这些规律在不同的量化方法和模型测试中均有效。研究还指出,低比特量化对模型训练阶段的权重变化有很大影响。未充分训练的模型由于经历较大的权重波动,因此对低比特量化的鲁棒性较强;而充分训练的模型权重变化较小,低比特量化会导致显著的性能退化。
此外,研究还提出,低比特量化的性能损失(QiD)可以作为衡量模型训练是否充分的指标。如果量化后的性能损失接近零,说明模型尚未充分训练,这可以帮助预测模型达到一定训练量所需的 tokens 数。
大模型日报(12月28-29日 资讯篇)
http‍s://mp.w‍‍e‍ix‍in.qq.com/s/sf_Pfu7LSSQGLNUq2HDX8g
04
元资助

智能驾驶2025年投资展望

  1. 行业景气度:自动驾驶行业因政策和产业应用快速增长,特别是特斯拉、华为、小米等企业推动智能化水平提升,带动行业保持高景气度。

  2. 技术迭代:城市智驾功能快速迭代,高阶智驾功能渗透率提升。预计智驾技术方案将收敛,高阶功能加速渗透,基础ADAS功能在低端车型中普及。

  3. 自主品牌布局:华为、小鹏、理想等品牌在端到端智驾领域领先,小米和零跑也在积极布局。

  4. 特斯拉FSD入华:特斯拉计划2025年在中国和欧洲推出FSD,若实现将加剧竞争,提升消费者接受度,对智驾领域竞争格局产生影响。

  5. 风险提示:包括行业景气度波动、竞争格局恶化、客户拓展及新项目量产进度不及预期等。

  6. 特斯拉FSD进展:FSD V13版本将发布,特点包括原生AI4输入、模型和数据规模扩大、训练计算量增加,以及接管率改进。

  7. 自动驾驶芯片:自动驾驶芯片以SoC异构方案为主,英伟达Thor芯片性能领先,国产厂商如地平线、华为逐渐起量。

  8. 智能车创新:汽车智能化关注车载投影巨幕等增量创新,智能辅助驾驶技术路线分为纯视觉和多传感器融合,Robotaxi等无人驾驶商业化落地。

大模型日报(12月28-29日 资讯篇)

    https://mp.w‍e‍ixin.qq.com/s/g5u‍Qk7us7dzhxZ_v0CvXVg

    推特

    01
    00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

    开源、可在设备端执行推理的 GPT4All,新增Reasoner v1

    引入开源、可在设备端执行推理的 GPT4All
    • 新增:GPT4All Reasoner v1
    • 支持 Code Interpreter、Tool Calling 与 Code Sandboxing
    推理时计算现已在世界上的每一台笔记本电脑上可用。

    大模型日报(12月28-29日 资讯篇)

    https://x.com/nomic_ai/status/1872679193705951232
    02 

    VS Code现在可直接使用Claude 3.5 Sonnet,对所有人免费开放

    Claude 3.5 Sonnet,直接在 VS Code
    今天起对所有人免费开放,搭配 GitHub Copilot Free 使用。了解更多:http://aka.ms/copilot-free
    大模型日报(12月28-29日 资讯篇)
    https://x.com/code/status/1872673862992744625


    03 

    En:由 LLM 驱动的图书推荐引擎

    “告诉我你在寻找却无法命名的书” —— 一个由 LLM 驱动的图书推荐引擎。
    已经提供了一些很棒的建议:http://en.app
    大模型日报(12月28-29日 资讯篇)
    https://x.com/rauchg/status/1872882102372581595

    04

    2025 年 AI 工程阅读清单:每周一篇论文/博客/模型系列

    2025 年 AI 工程阅读清单
    https://latent.space/p/2025-papers
    每周一篇论文/博客/模型系列,覆盖 2025 年的每一周,供您组织论文讨论会或在假期集中阅读。
    大模型日报(12月28-29日 资讯篇)
    https://x.com/latentspacepod/status/1872719928618565646

    产品

    01

    SEO机器人 世界上第一个博客 SEO 人工智能代理

    SEO 机器人是一款功能强大的人工智能工具,专为优化您的博客内容而设计。它能够生成有价值且非垃圾的文章,帮助提升网站的搜索引擎排名。该工具自动进行关键字研究,并在文章中智能嵌入相关链接,提高内容的相关性和权威性。同时,它还支持自动生成图像和嵌入视频,进一步增强文章的可视性和吸引力。
    为了确保内容的准确性,SEO 机器人还具备反幻觉功能,能够进行事实核查和来源引用,确保发布的内容真实可靠。用户还可以选择进行人工审核,以进一步提高文章的质量。最重要的是,SEO 机器人可以与大多数 CMS 系统自动同步,轻松集成到现有工作流程中,让网站管理更加高效便捷。
    大模型日报(12月28-29日 资讯篇)
    https://seobotai.com/?ref=producthunt

    02

    CodeWords – 名字线索游戏

    如果你喜欢《Codenames》,你一定会爱上《CodeWords》!《CodeWords》是一款4人团队对抗的单词联想游戏,玩家分成两队,轮流提供线索并选择棋盘上的卡片。游戏可以进行完整的对局,或者通过“快速玩法”和“每日猜词”模式快速投入游戏,随时随地享受挑战。
    《CodeWords》不仅考验团队之间的默契和策略,还让玩家在紧张刺激的氛围中锻炼思维,充满乐趣和创意,适合各种聚会和娱乐场合。
    大模型日报(12月28-29日 资讯篇)
    https://www.producthunt.com/products/codewords-name-clue-game#codewords-name-clue-game


    推荐阅读

    — END —

    1.   The theory of LLMs|朱泽园ICML演讲整理

    2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    快速获得3Blue1Brown教学动画?Archie分享:使用 Manim 引擎和 GPT-4o 将自然语言转换为数学动画

    原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/29154.html

    Like (0)
    Previous 2024-12-27 19:17
    Next 2024-12-30 11:03

    相关推荐