大模型日报(11月13日 资讯篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(11月13日 资讯篇)

资讯

01

国产GPU独角兽摩尔线程启动IPO

11月13日,中国证监会官网公布,国内全功能GPU独角兽企业摩尔线程智能科技(北京)股份有限公司(简称“摩尔线程”)已在北京证监局办理辅导备案登记,正式启动A股上市进程。辅导机构为中信证券。摩尔线程成立于2020年6月,注册资本33000万元,实际控制人为张建中,持股44.07%。
摩尔线程专注于全功能GPU,致力于为全球提供加速计算基础设施及一站式解决方案,推动各行各业的数智化转型。该公司目标是成为国际竞争力的GPU领军企业,打造先进的加速计算平台,特别是融合AI与数字孪生的数智世界。摩尔线程是国内少数同时布局B端和C端的国产GPU企业,采用自研MUSA架构,集成了AI计算加速、图形渲染、视频编解码、物理仿真和科学计算四大引擎。其产品包括10款硬件、大模型预训练平台和AI大模型训推一体机等。
在AI大模型训练方面,摩尔线程推出了全国产的千卡智算集群,并提供自有的万卡集群方案,跻身国内AI芯片第一梯队。2022年,摩尔线程发布了国产游戏显卡MTT S80,被誉为“国产游戏第一卡”,是国内唯一支持DirectX 12的消费级显卡。其客户包括头部运营商、大型国有银行和大模型创业公司等。
在IPO之前,摩尔线程已完成多轮融资,融资额累计数十亿元,投资方包括中国移动、深创投、红杉资本等知名机构。根据胡润研究院的《2024全球独角兽榜》,摩尔线程估值255亿元,排名第261位。此外,截至2024年10月,摩尔线程已获得425项授权专利,在国内GPU企业中专利数量位居前列。
大模型日报(11月13日 资讯篇)
htt‍ps://mp.weixin.qq.com/s/0SXPOvFPFo4f7rphxbUuwA
02

多模态连续学习综述

本文综述了多模态连续学习(MMCL)的最新进展,讨论了该领域的关键挑战、方法以及未来的研究方向。连续学习(CL)的目标是使机器学习模型能够在不重新训练所有旧数据的情况下,从新数据中不断学习。然而,CL面临灾难性遗忘问题,即新任务的训练会干扰旧任务的性能。尽管已有显著进展,传统的CL方法主要关注单一数据模态,如视觉、语言等,而现实世界则是多模态的,这导致了多模态连续学习(MMCL)的兴起。
MMCL系统需要有效整合和处理来自不同模态(如视觉、语言、音频等)的数据,同时还要应对灾难性遗忘。与传统CL相比,MMCL面临四个主要挑战:
  1. 模态失衡:不同模态的数据可用性和处理能力可能存在显著差异,导致训练过程中出现模态不平衡。这可能影响学习速度和效率。
  2. 复杂模态交互:模态间的交互,例如模态对齐和模态融合,带来新的挑战。在连续学习过程中,模态的特征可能会出现空间紊乱,从而导致性能下降。
  3. 高计算成本:引入多种模态增加了计算开销,尤其是当使用预训练的多模态模型时,可能需要更多计算资源来微调这些模型。
  4. 预训练零样本能力退化:尽管多模态预训练模型在零样本学习中表现出色,但在连续学习过程中,其零样本能力可能会减弱,导致未来任务的性能下降。
针对这些挑战,作者总结了四类主要的MMCL方法:
  1. 基于正则化的方法:通过对模型参数施加约束,减少灾难性遗忘。这类方法的缺点是容易受到任务间干扰。
  2. 基于架构的方法:为不同任务引入专门的模型组件,减少任务间的干扰,从而提高任务学习效果。
  3. 基于重放的方法:利用情节记忆缓冲区保存历史任务的实例,避免灾难性遗忘。
  4. 基于提示的方法:利用少量调整的提示参数对预训练模型进行微调,减少计算开销,同时保持原有知识的稳定性。
MMCL方法主要集中在视觉和语言模态,但也有针对其他模态如图像、音频的研究。未来的研究方向包括:
  • 提高模态的数量与质量:除了视觉和语言模态,研究者可以探索更多模态的整合,如生物传感器和基因组学数据。
  • 更好的模态交互策略:深入研究模态间的相互影响,以优化模态融合和对齐过程。
  • 参数高效微调:利用参数高效微调(PEFT)方法来降低MMCL的训练成本,并探索新的PEFT方法。
  • 更好的预训练知识维护:防止在连续学习过程中遗忘预训练模型的知识,以保证任务性能。
  • 可信赖的MMCL:随着隐私保护和法规的日益严格,研究者可以探索如何将联邦学习(FL)方法与MMCL结合,增强模型的可信赖性。
大模型日报(11月13日 资讯篇)
https://mp‍.wei‍xin.q‍q.com/‍s/Ah‍ai0QE_2p-N2w_iLXVmqw
03

Scaling Laws终结,量化无用,AI大佬都在审视这篇论文

近日,AI 社区热议一篇名为《Scaling Laws for Precision》的论文,该研究指出大模型量化面临的挑战,并提出了一些前所未有的见解。哈佛大学的 Tanishq Kumar 和他的团队,深入探讨了低精度训练和推理对大语言模型(如 Llama)性能的影响,提出了一种全新的“精度感知扩展定律”。
  1. 训练后量化的难度: 研究表明,当大模型在大量数据上过度训练后,进行训练后量化变得非常困难。尤其是在预训练期间使用不同精度来处理权重、激活或注意力的效果是可预测的,且偏向于高精度(如 BF16)或未来精度(如 FP4)。这种量化对模型性能的影响是可量化和可预测的。
  2. 低精度训练的挑战: 低精度训练(如 FP4)虽然可以减少计算资源,但会导致模型的有效参数数量下降,从而影响训练效果。论文提出了一种新的扩展定律,预测在不同精度下训练和推理的性能下降,具体来说,训练一个较大模型时,以低精度进行训练可能是计算上最优的选择。
  3. 数据与精度的关系: 该研究还揭示了一个关键发现:训练时间和预训练期间的数据量与量化损失退化呈幂律关系。也就是说,更多的预训练数据会导致模型对量化的敏感度增加,进而导致性能损失。尤其是模型训练期间看到的数据与参数比值的增加,可能对模型性能带来负面影响。
研究团队预训练了465个语言模型,精度范围从3位到16位不等,并对每个模型进行了训练后量化。他们提出了一种统一的“精度感知”扩展定律,可以预测不同精度下的训练损失和推理损失。
此外,研究还探讨了量化感知训练(仅针对权重量化)与低精度训练对模型性能的影响。通过将模型分解为权重、激活和 KV 缓存等部分,研究发现,虽然权重可以低精度训练而不影响太大,但激活和 KV 缓存对精度的敏感性较高,降低其精度可能会带来更大损失。
该研究的扩展定律为低精度训练和量化提供了新的视角,尤其是在大模型的训练和推理过程中。作者认为,低精度预训练虽然在某些情况下能优化计算,但其对训练后量化的提升效果低于预期。未来的研究可以进一步探索如何平衡低精度训练与大规模数据的需求,尤其是如何在不牺牲性能的前提下提升计算效率。
该论文为大模型量化技术提供了理论支持,揭示了当前精度扩展面临的瓶颈,指出未来可能的技术路线:如通过扩大数据中心规模、动态路由到更小模型或通过知识提炼来优化计算资源的使用。
大模型日报(11月13日 资讯篇)

https://mp.weixin.qq.com/s/JhtOlj5Y4UYM3W3koeMmqw

04

宇树也来玩开源了:机器人操作数据集,采用抱抱脸LeRobot训练测试

宇树科技最近开源了Unitree G1机器人操作数据集,并表示将持续更新该数据集,内容包括数据采集、学习算法、数据集和模型等。此次开源的亮点在于,它基于抱抱脸(LeRobot)开源框架进行训练和测试,这一框架得到了抱抱脸联合创始人兼CEO的支持,并通过社交媒体分享,强调了LeRobot、huggingface等开源技术在机器人领域的崛起。

宇树开源的数据集包括五个具体操作任务,分别为:拧瓶盖倒水、叠三色积木、将摄像头放入包装盒、收集物品并存储、双臂抓取红色木块并放入黑色容器中。这些任务均由配备三指灵巧手的Unitree G1人形机器人进行采集。每张图像的分辨率为640×480,图像数据中包含了每个手臂及灵巧手的7维动作状态。
数据采集方面,宇树使用苹果Vision Pro对G1进行遥操作控制,并开源了遥操作控制的代码教程、硬件配置图、物料清单和安装说明等,帮助开发者复现和使用这些数据。训练方法基于LeRobot框架,数据被转换为适合该框架的格式,支持深度强化学习等训练方法。
虽然数据集已开源,但模型本身尚未公开。数据集由G1机器人收集,涵盖多个任务和操作数据集,记录了机器人的各种动作和手部控制。Unitree G1是一款高性能人形机器人,售价9.9万元起,已经实现量产。G1配备三指力控灵巧手,能够进行精细操作,如拧瓶盖、砸核桃等,此外还配备了Intel RealSense D435视觉传感器和LIVOX-MID360 3D激光雷达,支持360°的环境感知。G1还具备较强的运动能力,如单腿跳跃、原地360度转身等。
G1的训练和升级基于端到端深度强化学习和仿真训练,支持快速迭代和性能提升。此次开源数据集的发布标志着宇树在推动机器人研究和开源生态方面的重要一步,为学术界和开发者提供了宝贵的操作数据,预计将加速机器人的自主学习和技术进步。随着G1的量产和数据集的不断更新,宇树的机器人有望在更多领域得到应用,尤其是在实际工作场景中。
大模型日报(11月13日 资讯篇)
htt‍ps://mp.weixi‍n.qq.com/s/X‍‍vLYi1fgBneO4qsFQ3K-vg
05
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

Greg重返OpenAI,主抓重大技术创新

今天凌晨5点,OpenAI联合创始人兼总裁Greg Brockman宣布结束数月的长假,正式回归OpenAI工作。此时,OpenAI正面临高管离职潮,包括首席科学家Ilya Sutskever、首席技术官Mira Murati、安全团队负责人Lilian Weng等核心人物的相继离开。因此,Greg的回归被视为在公司最艰难时刻的关键复职,他的到来也被期待能稳住公司技术创新的核心竞争力。
Greg在给员工的内部备忘录中表示,他与CEO Sam Altman共同商议后,为自己设立了一个新职位,专注于推动重大技术创新和解决挑战。这意味着Greg的回归不仅是为了填补管理层的空缺,更是为了确保OpenAI在技术方面继续走在前沿。
Greg Brockman是OpenAI的创始团队成员之一,曾在Stripe担任CTO,帮助公司从4人小团队扩展至250人。他与Sam Altman、Ilya Sutskever、Mira Murati并称为OpenAI“四大天王”,共同推动了GPT系列模型的开发,包括GPT-1至GPT-4以及GPT-4o等重要技术突破。他的技术领导地位曾被《时代》周刊评选为全球100位AI领导者之一。
Greg的回归引发了网友的热烈讨论,许多人认为他能为OpenAI带来新的视角和技术突破,尤其是在AGI(通用人工智能)方面的进展,期待他为OpenAI的使命注入新的动力和创新。
大模型日报(11月13日 资讯篇)
https://mp.weixin.qq.com/s/TA3fIo6hYEkCAqzBuAjL5Q

推特

01
00Arxiver开源:包含 138,830 篇 arXiv 论文的多Markdown格式

llama-ocr:免费且开源的OCR工具,可以处理文档并以markdown格式输出

宣布发布 llama-ocr – 一个免费且开源的OCR工具!
它可以处理文档(目前支持图片),并以markdown格式输出,尤其在复杂收据、带表格/图表的PDF等场景下表现出色…
由Llama 3.2 vision提供支持,现已在npm上推出!

大模型日报(11月13日 资讯篇)

https://x.com/nutlope/status/1856402928086725020
02

Copilot Arena排行榜发布:哪个模型最适合编程?Imarena分享过去一个月的数据和发现

哪个模型最适合编程?
@CopilotArena 排行榜已发布!
我们的代码补全排行榜包含了过去一个月收集的数据,共完成了超过10万次代码补全,并获得了超过1万次投票!
以下是我们目前的主要发现🧵:
•  在我们的提示方法下,Sonnet-3.5能够与专为代码设计的模型(如Deepseek V2.5)在代码补全上竞争。
•  在同一层级内,随着更多投票的累积,我们仍观察到轻微波动。
•  我们发现GPT-4o-mini的表现远低于其他所有模型。
当前大多数Copilot Arena用户主要使用Python进行编码,其次是JavaScript/TypeScript、HTML/Markdown和C++。
平均上下文长度为1002个token,中位数为560个token,远超现有静态基准测试中的任务长度。例如,Human Eval的中位长度约为100个token。
用户倾向于接受排名靠前的推荐,但他们平均会花费7秒钟仔细选择,表明这种偏向并非出于本能。令人意外的是,位置偏差并不会对所有模型产生相同影响!更多分析将在未来的帖子中公布。
我们没有强迫聊天模型以与其训练不符的格式(例如FiM)输出代码,而是让模型自然生成代码片段,然后再将其后处理为FiM补全。这种方法简单却非常有效。
大模型日报(11月13日 资讯篇)

https://x.com/lmarena_ai/status/1856444009323082093

03

Elevenlabs改进Projects工具:多角色对话,播放速度,重新生成部分内容等

我们正在改进Projects工具,这是我们的长篇音频叙述工具。
创作者、出版商和企业可以使用Projects将书籍转为有声书,将剧本转为旁白,或将任何文本转为高质量的多角色对话。
https://elevenlabs.io/projects?utm_source=twitter&utm_medium=organic_social&utm_campaign=projects-2-0
在一个段落中分配多个声音,创建多角色对话。
可以在多个段落中调整声音设置,或者仅对部分对话进行调整,以增加强调或创造独特的表达效果。
还可以调整播放速度,以2倍速进行质量检查。
现在还可以更高效地逐节精炼内容。
通过生成历史对比和恢复之前的版本。并在调整到理想状态后锁定每个部分,以便跟踪并保障你的进度。
最后,针对你的反馈——现在可以重新生成句子的部分内容,甚至单个词语,以便更好地微调输出。
大模型日报(11月13日 资讯篇)
https://x.com/elevenlabsio/status/1856425044530082210
04

Tilde:在运用可解释性来解锁模型的深层推理和控制能力,推动人机交互的下一代发展

我们很高兴推出Tilde。
我们正在运用可解释性来解锁模型的深层推理和控制能力,推动人机交互的下一代发展。
通过理解模型的内部机制,我们可以提升其可靠性和性能——突破传统微调等技术的限制。
了解Tilde的强大功能吧。

大模型日报(11月13日 资讯篇)

https://x.com/tilderesearch/status/1856404543808131334
05

Supermaven AI加入Cursor:合并自定义Tab模型的智能与Supermaven的速度和代码库理解能力

我们很高兴宣布 @SupermavenAI 加入 Cursor!我们将合并自定义Tab模型的智能与Supermaven的速度和代码库理解能力,共同将Cursor打造成集研究与产品于一体的强大平台。Supermaven带来了在长上下文理解方面的研究专长,即使大型实验室也难以企及。未来,编程中的新范式将需要创新的想法、一流的研究团队,以及对界面的全面控制。阅读更多内容:https://cursor.com/blog/supermaven
大模型日报(11月13日 资讯篇)https://x.com/cursor_ai/status/1856427424927625679

产品

01

EarlyAI

EarlyAI 是一款智能开发工具,通过自动生成高覆盖率的单元测试来提升代码质量,帮助开发者专注于创新应用。它提供自动测试生成、易于导航的界面、文档建议和 Pull Request 测试等功能,用户已生成超过 50,000 个测试,显著提升了代码覆盖率和开发效率。
大模型日报(11月13日 资讯篇)
https://www.startearly.ai/
02

ToolJet

ToolJet 是一个开源低代码开发平台,可以帮助用户通过可视化界面快速构建和部署应用程序。它支持多种数据源和 API 集成,允许用户通过拖放组件轻松设计界面,适合希望快速开发原型或小型应用的团队和个人
大模型日报(11月13日 资讯篇)
https://tooljet.com

投融资

01

Red Hat收购AI优化初创公司Neural Magic

IBM旗下的开源软件公司Red Hat宣布收购了AI优化初创公司Neural Magic。该公司专注于优化AI模型,使其能够在普通处理器和GPU上更高效地运行,速度达到类似专用AI芯片(如TPU)的水平。Neural Magic的目标是通过其软件平台,利用常见处理器的内存优势,提升AI工作负载的处理效率。
Neural Magic成立于2018年,由麻省理工学院的研究员Alex Matveev和Nir Shavit创立。该公司至今已获得来自Andreessen Horowitz、New Enterprise Associates、Amdocs、Comcast Ventures、Pillar VC及Ridgeline Ventures等投资者的5000万美元风险投资。
此次收购对Red Hat而言意义重大。Red Hat CEO Matt Hicks表示,Neural Magic在开源项目vLLM(用于模型部署)方面的贡献,使其成为公司收购的关键因素。通过这项收购,Red Hat将能够向客户提供一个“企业级”的AI优化堆栈,进一步增强其混合云解决方案的能力,尤其是在跨云环境中优化和部署AI模型的能力。
此举不仅强化了Red Hat在AI领域的布局,还使其在云计算和AI基础设施优化领域进一步巩固了市场地位。随着AI技术的需求激增,大型科技公司纷纷收购那些能够帮助优化AI算法的公司,类似的收购行动正在成为行业趋势。
公司官网:https://neuralmagic.com/
大模型日报(11月13日 资讯篇)
https://techcrunch.com/2024/11/12/red-hat-acquires-ai-optimization-startup-neural-magic/
02

General Catalyst 和 Khosla Ventures 投资数据映射初创公司 Lume

数据集成是许多工作流程中的关键环节,但许多企业在处理数据时面临繁琐的手动操作。Lume 致力于利用 AI 自动化数据映射,解决这一问题。通过其系统,Lume 能够提取来自不同数据库的信息,将其“标准化”以便更轻松地进行集成或迁移,且在数据集成出现故障时,Lume 还能自动通知并尝试修复问题。Lume 专注于复杂的嵌套数据格式(如 JSON),并非仅仅局限于电子表格或 PDF 文件的提取,因此能够帮助公司更加高效地处理复杂的数据任务。
Lume 成立于2023年,由斯坦福大学的三位计算机科学专业的创始人创建。公司于同年推出了首个产品,并通过了 Y Combinator 的 W23 批次。Lume 最近完成了一轮420万美元的种子融资,由 General Catalyst 领投,Khosla Ventures、Floodgate 和 Y Combinator 参与,此外还有一些天使投资者的支持。
此次融资将用于扩展团队,Lume计划将员工人数从5人增加至10人,并继续推进技术研发。Lume的目标是成为数据系统之间的“胶水”,使数据流动变得更加顺畅。
与Lume竞争的公司包括SnapLogic和Osmos等,但创始人对竞争并不担忧,认为Lume的算法和其API的整合能力使其能够脱颖而出。
公司官网:https://lume.ai/
大模型日报(11月13日 资讯篇)
https://techcrunch.com/2024/11/12/general-catalyst-and-khosla-ventures-back-data-mapping-startup-lume/
03

生成式AI初创公司Writer完成2亿美元融资,估值达到19亿美元

生成式AI初创公司Writer宣布完成了一轮2亿美元的C轮融资,此轮融资将用于扩大其面向企业的生成式AI平台。融资由Premji Invest、Radical Ventures和ICONIQ Growth联合领投,Salesforce Ventures、Adobe Ventures、B Capital、Citi Ventures、IBM Ventures和Workday Ventures等也参与了此次投资。
Writer创始人兼CEO May Habib表示,本轮融资将帮助公司加速产品开发,并进一步巩固其在企业级生成式AI领域的领导地位。Habib指出,Writer不仅仅是在创建能够执行任务的AI模型,而是在开发能够为企业提供关键任务支持的先进AI系统。
Writer成立于2020年,由May Habib和Waseem AlShikh创办。两位创始人此前共同推出了Qordoba,帮助公司进行产品本地化。Writer目前已经发展成一个全面的生成式AI平台,产品可以根据不同的企业需求进行定制。
2023年,Writer推出了自家开发的文本生成模型Palmyra,并且引入了能够将企业数据源与其模型连接的功能。2024年10月,Writer发布了基于合成数据训练的Palmyra X 004模型,开发成本仅为70万美元,相较于同等规模的OpenAI模型(成本约460万美元),成本大大降低。
尽管生成式AI市场竞争激烈,Writer已经吸引了包括Mars、Ally Bank、Qualcomm、Salesforce、Uber、Accenture、L’Oréal和Intuit等在内的大量客户。Salesforce的产品营销高管Patrick Stokes表示,Writer提供的AI解决方案非常有效且易于部署,已经在加速Salesforce的工作流程。
此外,Accenture、Balderton、Insight Partners和Vanguard等也参与了Writer的C轮融资。这一轮融资进一步展示了风险投资界对生成式AI的热情未减,随着生成式AI市场预计将在未来十年内突破1万亿美元的收入,尽管面临隐私、版权等挑战,该市场仍然具有巨大的增长潜力。
公司官网:https://writer.com/
大模型日报(11月13日 资讯篇)
https://techcrunch.com/2024/11/12/generative-ai-startup-writer-raises-200m-at-a-1-9b-valuation/
04

Anysphere收购AI编码助手Supermaven,增强Cursor产品

Anysphere公司宣布收购AI编码助手Supermaven,收购金额未披露。Anysphere是AI驱动的代码编辑器Cursor的开发公司,收购Supermaven旨在提升其产品的性能,尤其是在处理长代码序列时,借助Supermaven的AI技术增强其Tab AI模型的智能和响应速度。
Supermaven成立于2022年,由Jacob Jackson创办,他曾是Tabnine的共同创始人。Supermaven的生成性AI模型Babble在低延迟的架构支持下,能够同时理解大量代码。Supermaven的用户基础也在增长,2023年9月已有超过35,000名开发者注册。此前,Supermaven从Bessemer Venture Partners、OpenAI联合创始人John Schulman以及Perplexity联合创始人Denis Yarats等投资者处筹集了1200万美元资金。
尽管Supermaven并未计划出售公司,但在与Anysphere团队接触并了解后,创始人Jackson认为双方的合作能够更快速地打造出更有价值的产品。收购后,Supermaven团队将与Cursor团队一起设计产品的编辑器UI,进一步推动技术创新。
此次收购的背景是,Anysphere的估值已达到高达25亿美元,并且收到了来自Benchmark、Index Ventures和Andreessen Horowitz等公司的收购意向。随着AI编码工具市场的快速增长,Anysphere的产品Cursor在业内逐渐受到广泛关注。预计到2032年,AI编码工具市场的规模将达到271.7亿美元,而GitHub最新调查显示,绝大多数开发者已采用某种形式的AI工具。
公司官网:https://supermaven.com/
大模型日报(11月13日 资讯篇)
https://techcrunch.com/2024/11/12/anysphere-acquires-supermaven-to-beef-up-cursor/

推荐阅读

— END —

1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/11/21693.html

Like (0)
Previous 2024-11-12 20:27
Next 2024-11-14 01:40

相关推荐