大模型周报:谷歌Gemma杀入场,笔记本可跑,可商用

大模型周报由大模型日报精选而成,如需进入大模型日报群和空间站请直接扫码,社群除日报外还会第一时间分享大模型活动。

欢迎大家一起交流!

大模型周报:谷歌Gemma杀入场,笔记本可跑,可商用

资讯

01

开源大模型王座易主!谷歌Gemma杀入场,笔记本可跑,可商用

开源领域大模型,迎来了重磅新玩家。谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。本次发布包含两种权重规模的模型:Gemma 2B 和 Gemma 7B。每种规模都有预训练和指令微调版本。想使用的人可以通过 Kaggle、谷歌的 Colab Notebook 或通过 Google Cloud 访问。当然,Gemma 也第一时间上线了 HuggingFace和HuggingChat,每个人都能试一下它的生成能力。

大模型周报:谷歌Gemma杀入场,笔记本可跑,可商用

https://mp.weixin.qq.com/s/_iCYfqmXA3enKn3Hm-DwSA

02

10倍英伟达GPU:大模型专用芯片一夜成名,来自谷歌TPU创业团队

我们知道,大模型到 GPT-3.5 这种千亿体量以后,训练和推理的算力就不是普通创业公司所能承担的了,人们用起来速度也会很慢。但自本周起,这种观念已成为历史。有名为 Groq的初创公司开发出一种机器学习处理器,据称在大语言模型任务上彻底击败了 GPU—— 比英伟达的 GPU 快 10 倍,而成本仅为 GPU 的 10%,只需要十分之一的电力。


https://mp.weixin.qq.com/s/2lEvK7Sh3aUSzh8FJf1-sg

03

Figma CEO 最新专访:Figma 从来不只是一个设计工具,从一开始就是消除想象与现实之间的差距

Figma 联合创始&CEO Dylan Field 在近期接受了 theVerge 的采访。Dylan 提到了将 Figma 扩展到更普遍的生产力软件领域的可能性,不认为 Figma 会进入笔记应用领域,但他们希望探索更多与设计、编码、发布和衡量软件相关的价值链,他们可能通过合作伙伴关系来扩展,而不是独立开发这些功能。此外, Dylan 讨论了 AI 能如何影响设计工作。他认为,AI 的出现降低了设计的门槛,使更多人能够参与其中。他认为,AI 可以提高效率,让设计师在更短的时间内完成更多工作,AI 并不会完全取代人类设计师,因为设计工作中的情感、品牌体验和用户流程等方面,AI 目前还无法涵盖。

大模型周报:谷歌Gemma杀入场,笔记本可跑,可商用

https://mp.weixin.qq.com/s/YqO5sxMlneM_bhq2TmZjjA

04

爆火Sora背后的技术,一文综述扩散模型的最新发展方向

为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是扩散模型,在多个领域表现出色。扩散模型解决了其他模型的限制,如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此,扩散模型在计算机视觉、自然语言处理等方面备受关注。扩散模型由两个过程组成:前向过程和反向过程。前向过程把数据转化为简单的先验分布,而反向过程则逆转这一变化,用训练好的神经网络模拟微分方程来生成数据。与其他模型相比,扩散模型提供了更稳定的训练目标和更好的生成效果。

大模型周报:谷歌Gemma杀入场,笔记本可跑,可商用

https://mp.weixin.qq.com/s/sxaahA116ivqksJa38e9Ig

05

模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向

在过去的 2023 年中,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,甚至让模型变得更小。现在,2024 年的第一个月已经过去,也许是时候盘点一番新年首月进展了。近日,AI 研究者 Sebastian Raschka 发布了一份报告,介绍了四篇与上述新阶段有关的重要论文。它们的研究主题简单总结起来是这样:

  1. 权重平均和模型融合可将多个 LLM 组合成单个更好的模型,并且这个新模型还没有传统集成方法的典型缺陷,比如更高的资源需求。

  2. 代理调优(proxy-tuning)技术可通过使用两个小型 LLM 来提升已有大型 LLM 的性能,这个过程无需改变大模型的权重。

  3. 通过将多个小型模块组合起来创建混合专家模型,可让所得 LLM 的效果和效率媲美甚至超越更大型的对应模型。

  4. 预训练一个小型的 1.1B 参数的 LLM 可降低开发和运营成本,并能为教育和研究应用带来新的可能性。

    大模型周报:谷歌Gemma杀入场,笔记本可跑,可商用

https://mp.weixin.qq.com/s/qImKOQXLoZqLTW-SVISKHA

论文

01

OpenCodeInterpreter: 将代码生成、执行和细化集成

通过大语言模型的引入,代码生成得到了飞速发展。然而,开源模型通常缺乏类似GPT-4 Code Interpreter这样先进系统的执行能力和迭代改进能力。为了解决这一问题,我们推出了OpenCodeInterpreter,这是一系列为生成、执行和迭代改进代码而设计的开源代码系统。由数据集Code-Feedback支持,含有68K个多轮交互,OpenCodeInterpreter整合了执行和人类反馈以进行动态代码改进。我们在关键基准测试上对OpenCodeInterpreter进行了综合评估,如HumanEval、MBPP以及从EvalPlus改进的版本,结果显示其出色的表现。特别是,OpenCodeInterpreter-33B在HumanEval和MBPP的平均(加上版本)上实现83.2(76.4)的准确率,与GPT-4的84.2(76.2)不相上下,并且在使用合成人类反馈从GPT-4那边之后升至91.6(84.6)。OpenCodeInterpreter缩小了开源代码生成模型和专有系统如GPT-4 Code Interpreter之间的差距。

http://arxiv.org/abs/2402.14658v1

02

Brant-2: 脑信号的基础模型

基础模型通过对大量无标签数据进行预训练,使得在少量有标签数据的情况下在各种应用中表现出色。在分析脑信号中,这种模型尤其有效,因为这一领域涵盖了许多应用场景,进行大规模标注费时。本文介绍了脑信号中最大的基础模型Brant-2。与为颅内神经信号设计的基础模型Brant相比,Brant-2不仅对数据变化和建模规模具有鲁棒性,而且可以应用于更广泛的脑神经数据。通过在广泛任务上进行实验,我们展示了Brant-2如何适应脑信号中的各种应用场景。进一步的分析揭示了Brant-2的可扩展性,验证了每个组件的有效性,并展示了我们模型在标记稀缺情况下保持性能的能力。源代码和预先训练的权重可在以下链接获得:https://github.com/yzz673/Brant-2。

http://arxiv.org/abs/2402.10251v2

03

预训练数据中的平行结构导致上下文学习

预训练语言模型(LMs)能够进行上下文学习(ICL):它们可以在只提供少量示例的情况下适应任务,而不需要任何参数更新。然而,目前尚不清楚这种能力的来源,因为预训练文本与ICL提示之间存在明显的分布偏移。在这项研究中,我们研究了预训练数据中哪些模式有助于ICL。我们发现LMs的ICL能力取决于预训练数据中的“平行结构”–在相同上下文窗口中遵循相似模板的短语对。具体地,我们通过检查训练一个短语是否提高了对另一个的预测,来检测平行结构,并进行消融实验以研究其对ICL的影响。我们展示了去除预训练数据中的平行结构会使LMs的ICL准确性降低51%(而随机消融只有2%)。即使排除常见模式,如n-gram重复和长程依赖,这种下降仍然存在,显示出平行结构的多样性和泛化性。对检测到的平行结构进行更详细的研究表明,它们涵盖了各种语言任务,并延伸至数据的长距离。

        首先,我们通过在本就带有噪声的C4数据集上使用WRAP,加快了预训练速度约3倍。在相同的预训练计算成本下,它在Pile的不同子集上平均改善了10%以上的困惑度,并在13个任务中提高了零样本问答的准确性超过2%

        其次,我们研究了重新表述风格对模型性能的影响,揭示了训练数据的组成如何影响LLM在OOD设置中的性能。我们的收益归因于重新表述合成数据比真实数据具有更高的效用,因为它(i)包含了与下游评估风格密切相关的风格多样性,以及(ii)比网络抓取的数据具有更高的”质量”。

http://arxiv.org/abs/2402.12530v1

04

重新格式化对齐

摘要:微调数据的质量对于调整大型语言模型(LLMs)与人类价值观的一致性至关重要。目前改善数据质量的方法要么是劳动密集型的,要么容易受到LLM幻觉引起的事实错误的影响。本文探讨了提升现有指导数据质量以更好地与人类价值观一致的方法,介绍了一个名为ReAlign的简单有效方法,将指导数据的响应重新格式化为与预先建立的标准和汇编的证据更好地一致的格式。这种方法最小化了人类注释、幻觉和扩展困难,保持与现有对齐技术正交。实验证明,ReAlign显著提升了LLMs的一般对齐能力、数学推理、事实性和可读性。

令人鼓舞的是,仅通过重新格式化响应,而无需引入任何额外数据或高级训练技术,LLaMA-2-13B在GSM8K上的数学推理能力从46.77%提高到56.63%。此外,仅有5%的ReAlign数据在Alpaca数据集上衡量的一般对齐能力增加了67%。这项工作强调了对LLMs科学和机械解释性进一步研究的必要性。我们已经公开发布了相关代码和数据,以支持未来研究:https://github.com/GAIR-NLP/ReAlign。

http://arxiv.org/abs/2402.12219v1

05

每日活动数据集

我们提出了Aria Everyday Activities(AEA)数据集,这是一个使用Project Aria眼镜记录的自我感知多模态开放数据集。AEA包含了在五个地理多样的室内地点由多名佩戴者记录的143个日常活动序列。每个记录包含通过Project Aria眼镜记录的多模态传感器数据。此外,AEA提供了机器感知数据,包括高频全局对齐的3D轨迹、场景点云、每帧3D眼睛注视向量和时间对齐的语音转录。在本文中,我们展示了通过此数据集实现的一些示例研究应用,包括神经场景重建和提示分割。AEA是一个开放源代码数据集,可以从https://www.projectaria.com/datasets/aea/下载。我们还提供了在Project Aria Tools(https://github.com/facebookresearch/projectaria_tools)中如何使用数据集的开源实现和示例。

http://arxiv.org/abs/2402.13349v2

img

学习

01

Sora物理悖谬的几何解释

Sora横空出世,举世震惊。Sora声称“作为世界模拟的视频生成模型”,豪气干云。有人悲观预言很多传统领域可能被颠覆,其中最为岌岌可危的可能是计算机图形学,短视频和影视娱乐行业。依随OpenAI透露出更多技术细节,很多Sora生成的物理悖谬的视频流传于网络。这里笔者依据现代数学特别是整体微分几何领域的一些观点来解释目前Sora技术路线中的缺陷,希望能够抛砖引玉,为广大AI研究和工程人员拓宽思路,共同促进提高。这里主要用流形嵌入理论、灾变理论(临界态理论)、纤维丛示性类理论、热扩散方程和最优传输方程(蒙日-安培方程)的正则性理论来解释。

大模型周报:谷歌Gemma杀入场,笔记本可跑,可商用

https://mp.weixin.qq.com/s/HSZMbiFuNvTmBv26csZFGg

02

为什么说 Sora 是世界的模拟器?

Sora被誉为“世界的模拟器”,因为它能够生成符合物理世界规律的视频,展现出对运动中物理世界的深刻理解。OpenAI的技术报告显示,Sora通过自监督学习海量视频数据,能够在文本描述的基础上生成不违反物理规律的长视频。与虚幻引擎(UE)等硬编码物理引擎不同,Sora采用端到端的数据驱动方法,结合了Transformer模型和视频数据token化,实现了与语言模型(LLM)的无缝融合。这种设计使得Sora在模拟物理世界时更加通用和鲁棒,有望成为连接虚拟与现实世界的通用模拟器。

https://mp.weixin.qq.com/s/045y97ziRj6UdpxBVW3ABQ

03

AI-Native 的大产品时代

本文探讨了AI技术(特别是生成性AI,GenAI)在信息商品经济中的影响,以及它如何推动产品范式从“软件”向“模型”的转变。文章分析了GenAI技术对信息生产、分配和消费环节的深刻影响,并预测了新的大产品时代的到来。AI-Native产品被定义为以提升智慧程度为目标,以可持续迭代算法为核心,通过转化可训练数据在信息的一个或多个环节产生优化的产品。文章提出了“产品智能主义”作为AI-Native产品的信仰,强调了连续性作为衡量产品智慧的标准,并探讨了技术驱动与产品驱动智能的融合路径。最后,作者分享了对AI-Native产品时代的展望和个人在这一领域的实践。

https://mp.weixin.qq.com/s/knu3_pbZHQCaffI_twTFcA

04

The Bitter Lesson(苦涩的教训)

《苦涩的教训》文章指出,70年的人工智能研究给我们最大的教训是:能够利用计算能力的通用方法最终将更有效。文章强调,不断降低的计算成本(摩尔定律)是这一现象的根本原因。AI研究往往假设可用的计算资源是恒定的,这时利用人类知识是提升性能的唯一方式,但随着时间推移,大量的计算资源将不可避免地变得可用。作者通过棋类游戏、语音识别以及计算机视觉等AI领域内的例子,说明了当研究者依靠大规模计算提出的解决方案在长远来看比倚靠人类知识更为成功。这表明通用方法的强大力量,我们应停止尝试简化复杂的认知内容,而是构建能捕捉这种复杂性的元方法。

http://www.incompleteideas.net/IncIdeas/BitterLesson.html

05

Diffusion Model + RL 系列技术科普博客(8):基于扩散模型的强化学习概述

文章主要探讨了扩散模型在强化学习算法中的应用。扩散模型是一种生成模型,能有效建模和估计数据的分布,尤其在处理高维数据如图片和视频生成方面表现出色。文章分析了扩散模型的原理,包括其生成过程和训练方法。在强化学习应用方面,扩散模型主要用于策略建模、数据增强和规划器建模。文章提到,扩散模型在策略函数建模时能提高策略的表达力和处理多模态分布的能力,通过数据增强降低数据采集成本,并在长时轨迹序列建模方面显示出强大的能力。最后,文章展望了扩散模型在环境模型建模中的潜力及其对强化学习算法训练的潜在影响。

https://zhuanlan.zhihu.com/p/683367793?utm_psn=1744306366745853953


欢迎直接扫码加入空间站和飞书日报群👇🏻

大模型周报:谷歌Gemma杀入场,笔记本可跑,可商用

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/02/17043.html

Like (0)
Previous 2024-02-22 13:56
Next 2024-02-23 22:48

相关推荐

  • 大模型日报(8月13日 资讯篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-13
    265
  • 大模型日报(7月24日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-24
    217
  • 大模型日报(3月15日)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 资讯 01 苹果大模型MM1杀入场 300亿…

    2024-03-15
    105
  • 大模型日报(4月24日 资讯篇)

    欢迎观看大模型日报,进入大模型日报群和空间站(活动录屏复盘聚集地)请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 推特 01 Chip Huyen新书A…

    2024-04-24
    124
  • 深度|Scaling Law 的发展历程,与数据受限问题的解决措施

    Preface 前言 Scaling Law,即规模法则。大模型的 Scaling Law 发展历程表明,随着模型规模、训练数据和计算资源的增加,模型性能会得到显著提升,并且这些关…

    2024-08-19
    696
  • 大模型日报(5月6-7日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 资讯 0…

    2024-05-07
    96
  • 大模型日报(8月22日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-22
    217
  • 大模型周报:谷歌Bard更名为Gemini,对标GPT-4

    大模型日报和周报会在2月8-17日停更放假~ 但是好消息:你会在2月18日早上收到奇绩的春节特刊,放心躺平嗑瓜子吧同学们,你错过的消息小编团队会帮你全都收集起来~ LLM SPAC…

    2024-02-09
    145
  • 大模型日报(8月15日 资讯篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-15
    188
  • 大模型日报(7月22日 资讯篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-22
    233