大模型日报(6月18日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月18日 学术篇)

论文

01

Nemotron-4 340B 技术报告

我们发布了Nemotron-4 340B模型系列,包括Nemotron-4-340B-Base,Nemotron-4-340B-Instruct和Nemotron-4-340B-Reward。我们的模型在NVIDIA开放模型许可协议下开放访问,这是一种宽松的模型许可协议,允许分发、修改和使用模型及其输出。这些模型在广泛的评估基准上表现出竞争力,并被设计成在单个DGX H100上使用8个GPU进行FP8精度部署。我们相信社区可以从这些模型中受益,在各种研究和商业应用中特别适用于生成用于训练较小语言模型的合成数据。值得注意的是,在我们的模型对齐过程中使用的数据超过98%是合成生成的,展示了这些模型在生成合成数据方面的有效性。为了进一步支持开放研究和促进模型开发,我们还公开了在我们的模型对齐过程中使用的合成数据生成管道。
大模型日报(6月18日 学术篇)http://arxiv.org/abs/2406.11704v1
02

大语言模型在预训练过程中如何获取事实知识?

尽管最近观察到大语言模型(LLMs)可以存储大量事实知识,但对它们通过预训练获取事实知识的机制仍了解有限。本研究通过研究LLMs在预训练过程中获取事实知识的方式来填补这一空白。研究发现,事实知识在预训练过程中获取的动态有几个重要洞察。总的来说,我们的观察表明,在LLM预训练中,事实知识的获取是通过逐步增加在每一步中呈现在预训练数据中的事实知识的概率来实现的。然而,这种增加会被后续的遗忘所稀释。根据这一解释,我们证明了我们可以对LLMs最近观察到的行为提供合理的解释,比如LLMs在长尾知识上的表现较差以及去重预训练语料库的好处。
大模型日报(6月18日 学术篇)http://arxiv.org/abs/2406.11813v1
03

Datacomp LM: 寻找下一代语言模型训练集

我们介绍了用于语言模型的数据比较(DCLM),这是一个用于控制数据集实验的测试平台,旨在改进语言模型。作为DCLM的一部分,我们提供了一个标准化语料库,从Common Crawl中提取了240T令牌,基于OpenLM框架的有效预训练配方,以及53个下游评估。参与DCLM基准测试的参与者可以尝试不同的数据整理策略,如去重、过滤和数据混合等,模型规模范围从412M到7B参数不等。作为DCLM的基准线,我们进行了大量实验,并发现基于模型的过滤对于组装高质量训练集至关重要。由此产生的数据集DCLM-Baseline使得可以从头开始训练一个7B参数的语言模型,在MMLU上实现64%的5次试验准确度,训练令牌数量达到2.6T。与先前的开放数据语言模型MAP-Neo相比,DCLM-Baseline在MMLU上实现了6.6个百分点的改进,同时使用的计算资源少了40%。我们的基准模型还与Mistral-7B-v0.3和Llama 3 8B在MMLU上表现相当,并在53个自然语言理解任务的平均表现上与Llama 3 8B相比,训练时使用的计算资源少了6.6倍。我们的结果突显了数据集设计对于训练语言模型的重要性,并为进一步研究数据整理提供了一个起点。
大模型日报(6月18日 学术篇)http://arxiv.org/abs/2406.11794v1
04

长代码竞技场:长文本代码模型基准集

如今,代码和自然语言处理领域正在迅速发展。特别是,在处理长上下文窗口方面,模型变得更加优秀 – 支持的上下文大小在过去几年里增加了几个数量级。然而,在代码处理方面缺乏超越单个文件上下文的基准,而最流行的基准仅限于单个方法。通过这项工作,我们旨在通过引入Long Code Arena来填补这一空白,这是一个包含六个代码处理任务基准的套件,这些任务需要项目范围的上下文。这些任务涵盖代码处理的不同方面:基于库的代码生成、CI构建修复、项目级代码补全、提交消息生成、错误定位和模块摘要。对于每个任务,我们提供一个手动验证的数据集用于测试,一个评估套件,并且基于流行的LLM提供开源基线解决方案,以展示数据集的使用方法,并简化其他研究人员的采用。我们在HuggingFace Spaces上发布基准页面,包含排行榜,所有数据集的HuggingFace Hub链接,以及包含基线代码的GitHub存储库链接:https://huggingface.co/spaces/JetBrains-Research/long-code-arena。
大模型日报(6月18日 学术篇)http://arxiv.org/abs/2406.11612v1
05

MINT-1T:将开源多模态数据扩展10倍:一个含有万亿个token的多模态数据集

摘要:多模式交织数据集在训练前沿大型多模式模型(LMMs)时至关重要,其中包括自由形式交织的图像和文本序列。尽管开源LMMs迅速发展,但大规模、多样化的开源多模式交织数据集仍然数量有限。因此,我们介绍了迄今为止规模最广泛、最多样化的开源多模式交织数据集MINT-1T。MINT-1T包括一万亿文本token和三十亿图像,是现有开源数据集的十倍规模。此外,我们还包括以前未开发的来源,如PDF和ArXiv论文。分享数据整理过程和发布数据集将极大地惠及社区。我们的实验表明,在MINT-1T上训练的LMMs与在以前领先数据集OBELICS上训练的模型的性能相媲美。我们的数据和代码将在https://github.com/mlfoundations/MINT-1T发布。
大模型日报(6月18日 学术篇)http://arxiv.org/abs/2406.11271v1
06

HumanPlus: 从人类智能体进行人类仿真和模仿

摘要:本文介绍了一个全栈系统,让智能体从人类数据中学习运动和自主技能。通过在模拟环境中使用强化学习训练低级策略,然后将其转移到现实世界,使人形机器人只使用RGB摄像头即可实时跟随人体和手部动作,即“影子”。通过影子操作,人类操作员可以远程操控人形机器人收集整体数据,用于学习现实世界中的不同任务。通过收集的数据,进行监督行为克隆,使用自我的视角训练技能策略,让智能体通过模仿人类技能自主完成不同任务。我们展示了这个系统在我们定制的33自由度180厘米人形机器人上的应用,以自主完成穿鞋站立走路、从仓库货架卸载物体、叠脏衫、重新排列物体、打字和与另一个机器人打招呼等任务,成功率达60-100%。项目网址:https://humanoid-ai.github.io/
大模型日报(6月18日 学术篇)http://arxiv.org/abs/2406.10454v1
HuggingFace&Github

01

unitycatalog

Unity Catalog 是一个开放、可互操作的数据和人工智能目录平台,提供丰富的功能和特性,包括支持多种数据格式和类型、提供多模态接口、具有插件扩展性、与开放协议互操作、完全开源,提供统一的数据和 AI 治理能力。它希望成为数据和 AI 领域最开放、最可互操作的目录系统,为用户提供灵活、统一的数据和人工智能管理服务。
大模型日报(6月18日 学术篇)https://github.com/unitycatalog/unitycatalog
02

AI Math Notes

AI Math Notes 是一个基于 Python 和机器学习技术开发的交互式数学绘图应用程序。它允许用户在画布上绘制数学方程式,并使用多模态 LLM 自动计算并显示结果。该应用程序受到了 Apple 在 2024 年 WWDC 上推出的 “Math Notes” 应用的启发,目的是为用户提供一个简便的数学计算和表达工具。它还提供了清除画布、撤销等常见功能,并计划未来增加自动检测等号的功能,进一步提升用户体验。
大模型日报(6月18日 学术篇)https://github.com/ayushpai/AI-Math-Notes
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14666.html

Like (0)
Previous 2024-06-18 18:30
Next 2024-06-18 23:17

相关推荐

  • GoogleColab + ChatGPT 堪称一站式科研提速神器(堪称代码语法苦恼者的福音)!

    工欲善其事,必先利其器! 今日导师随手分享了一篇文章,关于GoogleColab上如何开启ChatGPT,我于是顺手尝试了一下,结果是,简直了!GoogleColab + Chat…

    2023-02-21
    164
  • 读博搞研究不用ChatGPT岂不可惜,GhatGPT牛刀小试之一决策树

    ChatGPT如此火爆,咱们就以实际工作来评价一下AI的能力,话不多说,以机器学习中的决策树开启这段旅程… 首先就以写代码的方式开始考察 1. 请生成一段以决策树为算法…

    2023-02-13
    166
  • AI学术 | Jenni AI 从0到1量身定制,加速你的论文写作!(一)

    如果说有一款神器可以实现从0到1量身定制,加速你的论文写作,Jenni ai无疑是其中之一! 注册过程我就省略了,只要使用自己的邮箱并确认即可,我们直接进入写作过程。 首先,选择你…

    2023-08-13
    156
  • 用ChatGPT薅羊毛,月入过十万?

    到周末了,让我们暂时抛开技术本身,闲聊一下关于ChatGPT不可回避话题:撸羊毛。 ChatGPT的出现,似乎意味着人类所面临的真正挑战终于到来了。作为新一代的聊天机器人程序,Ch…

    2023-03-26
    131
  • 大模型日报(4月18日 学术篇)

    欢迎观看大模型日报,进入大模型日报群和空间站(活动录屏复盘聚集地)请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 学习 01 DSPy 入门: 再见提示…

    2024-04-18
    105
  • 大模型日报(9月9日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-09
    275
  • 大模型日报(7月31日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-31
    198
  • 大模型日报(5月25~26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-05-26
    163
  • 大模型日报(6月5日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-06-05
    146
  • 大模型日报(7月13~14日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-14
    255