大模型日报(6月17日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月17日 学术篇)

论文

01

Pandora:朝向具有自然语言动作和视频状态的通用世界模型

世界模型模拟对不同行动的未来世界状态。它有助于互动内容创作,并为基于事实的、长期规划提供了基础。当前的基础模型未能完全满足通用世界模型的能力:大型语言模型(LLM)受限于其对语言形态的依赖和对物理世界的有限理解,而视频模型缺乏对世界模拟的互动行动控制。本文通过引入Pandora迈出了构建通用世界模型的一步,它是一种混合自回归扩散模型,通过生成视频模拟世界状态,并允许通过自由文本行动进行实时控制。Pandora通过大规模预训练和指导调整实现了领域通用性、视频一致性和可控性。关键的是,Pandora通过集成预先训练的LLM(7B)和预先训练的视频模型,只需进行轻量级微调,避免了从头开始训练的成本。我们展示了Pandora在不同领域(室内/室外、自然/城市、人类/机器人、2D/3D等)的广泛输出。结果表明,通过更大规模的训练,建立更强大的通用世界模型具有巨大潜力。
大模型日报(6月17日 学术篇)http://arxiv.org/abs/2406.09455v1
02

BABILong:测试LLM在长文本上的极限推理

近年来,大型语言模型(LLMs)的输入上下文大小大幅增加。然而,现有的评估方法没有跟上步伐,未能全面评估模型在处理长上下文时的效率。为弥补这一差距,我们引入了BABILong基准,旨在测试语言模型在处理分布在极长文档中的事实时的推理能力。BABILong包括一组多样的20个推理任务,包括事实链、简单归纳、演绎、计数和处理列表/集合。这些任务本身就很具挑战性,当所需事实分散在长篇自然文本中时更加困难。我们的评估表明,流行的LLMs仅有效利用上下文的10-20%,随着推理复杂性增加,性能急剧下降。在对上下文进行推理的替代方法中,检索增强生成方法在单个事实问题回答上取得了60%的准确率,独立于上下文长度。在上下文扩展方法中,递归记忆Transformer展示了最高的性能,能够处理长达1100万个tokens的长度。BABILong基准可扩展到任何长度,以支持对具有增强功能的新模型的评估,并提供了长达100万个token长度的数据集。
大模型日报(6月17日 学术篇)http://arxiv.org/abs/2406.10149v1
03

正则化隐藏状态使得LLM学习通用奖励模型

摘要:通过使用人类偏好数据训练奖励模型,已证明对齐大语言模型(LLMs)与人类意图在强化学习的框架下是有效的。然而,当前奖励模型对未见提示和回应的泛化能力有限。这种限制可能导致一种名为奖励过度优化的意外现象,即对奖励过度优化导致实际性能下降。在以前的研究中,虽然提倡限制策略优化,但我们的研究提出了一种新颖的方法,通过对隐藏状态进行正则化来增强奖励模型对分布变化的泛化能力。具体地,我们保留基础模型的语言模型头,并结合一系列文本生成损失来保留隐藏状态的文本生成能力,同时在相同的隐藏状态后面学习奖励头。我们的实验结果表明,引入的正则化技术显著提高了学习奖励模型在各种分布外(OOD)任务中的准确性,并有效缓解了RLHF中的过度优化问题,提供了更可靠和稳健的偏好学习范式。
大模型日报(6月17日 学术篇)http://arxiv.org/abs/2406.10216v1
04

ChartMimic:通过图表生成代码评估LLM的跨模态推理能力

我们引入了一个新的基准测试,ChartMimic,旨在评估大型多模态模型(LMMs)的视觉代码生成能力。ChartMimic利用信息密集型的视觉图表和文本说明作为输入,要求LMMs生成用于图表渲染的相应代码。ChartMimic包括1,000个由人类策划的(图表、说明、代码)三元组,代表科学论文中各个领域(如物理学、计算机科学、经济学等)中发现的真实图表用例。这些图表涵盖了18个常规类型和4个高级类型,分为191个子类。此外,我们提出了多层次评估指标,以自动和全面评估生成的代码和渲染的图表。与现有的代码生成基准测试不同,ChartMimic着重评估LMMs协调多种认知能力的能力,包括视觉理解、代码生成和跨模态推理。对3个专有模型和11个开放权重模型的评估突显了ChartMimic所带来的重大挑战。即使是先进的GPT-4V、Claude-3-opus分别仅获得73.2和53.7的平均分,表明有很大的改进空间。我们预计ChartMimic将激励LMMs的发展,推动对人工通用智能的追求。

大模型日报(6月17日 学术篇)http://arxiv.org/abs/2406.09961v1

05

生成AI在教学实践中的系统性回顾

摘要:在学术界使用生成人工智能(GenAI)是一个主观且备受争议的话题。目前,关于在高等教育(HE)中使用GenAI系统的指导方针还没有达成共识,因此还不清楚如何有效利用这项技术进行教学实践。本文概述了目前关于HE教学和学习中GenAI研究的现状。为此,本研究通过系统评审Scopus索引的相关研究,使用系统评审和元分析的首选报告项目(PRISMA)指南。搜索标准显示共发现625篇研究论文,其中355篇符合最终纳入标准。综述结果显示了文献、引用、文献来源/作者、关键词和共同撰稿人的现状和未来趋势。研究中发现的研究缺口表明,尽管一些作者已经研究了理解AI生成文本检测,但了解如何将GenAI纳入支持教育课程以进行评估、教学和学习交付可能是有益的。此外,在HE领域需要进行更多的跨学科、多维研究,通过合作来加强学生、导师和其他利益相关者的意识和理解,这将有助于制定GenAI使用的指导方针、框架和政策。
大模型日报(6月17日 学术篇)http://arxiv.org/abs/2406.09520v1
06

在评估基准中量化方差

评估基准是衡量大型语言模型(LLMs)能力的基石,也推动了这些能力的进步。评估基准最初设计用于对完全预训练模型的能力(或缺乏能力)提出要求,现在也广泛用于在各种训练选择之间做出决策。尽管被广泛使用,我们很少量化评估基准中的方差,这决定了性能差异是否具有意义。在这里,我们定义并测量了一系列旨在衡量评估基准中方差的指标,包括不同初始化之间的种子方差,以及训练期间的单调性。通过研究大量模型(包括公开可用的和从头开始预训练的模型),我们为各种方差指标提供了经验估计,并给出了从业者的考虑和建议。我们还评估了连续和离散性能指标的效用和权衡,并探讨了更好地理解和减少这种方差的选择。我们发现,简单的改变,如将选择任务(如MMLU)定位为完成任务,通常可以减少小规模模型(~7B)的方差,而灵感来自于人类测试文献的更复杂方法(如项目分析和项目反应理论)往往难以显著减少方差。总的来说,我们的工作提供了对评估基准中方差的见解,提出了减少方差的LM特定技术,并更一般地鼓励从业者在比较模型时仔细考虑方差。
大模型日报(6月17日 学术篇)http://arxiv.org/abs/2406.10229v1
07

分组和洗牌:高效的结构正交参数化

神经网络规模的增加导致了对高效微调方法的增长需求。最近,引入了一种使用正交矩阵来调整预训练模型权重的正交微调范例。本文介绍了一类新的结构化矩阵,统一和泛化了先前作品中的结构化类别。我们研究了这一类别的属性,并在此基础上构建了结构化正交参数化。然后我们使用这个参数化来修改正交微调框架,提高参数和计算效率。我们在不同领域对我们的方法进行了经验验证,包括调整文本到图像扩散模型和语言建模下游任务微调。此外,我们将我们的构建适应了正交卷积,并进行了1-Lipschitz神经网络的实验。
大模型日报(6月17日 学术篇)http://arxiv.org/abs/2406.10019v1
HuggingFace&Github

01

Lamini-Memory-Tuning

尽管大型语言模型(LLM)功能强大,但它们经常会产生一些不切实际的幻觉。以前的方法通过让 LLM 获取更多外部知识来减少这些幻觉,但无法完全解决。通过大量实验,研究人员发现,当训练损失超过一定阈值时,LLM 就会产生幻觉,这是之前的方法无法解释的。因此,研究人员设计了一种新的消除幻觉的模型 Lamini-1,它利用大量的记忆专家动态组合,用于存储和检索事实信息,从而减少 LLM 产生幻觉的情况。
大模型日报(6月17日 学术篇)https://github.com/lamini-ai/Lamini-Memory-Tuning
02

StableSwarmUI

StableSwarmUI 是一个模块化的 Stable Diffusion 网络用户界面,以提供易于访问的强大功能、高性能和可扩展性为目标,力求成为一个全面的 Stable Diffusion 解决方案。它提供了友好的生成界面和灵活的工作流程选项,支持从简单到复杂的各种图像生成功能,并通过多平台支持和 Docker 容器部署等方式方便用户使用。
大模型日报(6月17日 学术篇)https://github.com/Stability-AI/StableSwarmUI
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14687.html

Like (0)
Previous 2024-06-16 19:11
Next 2024-06-17 23:37

相关推荐

  • 大模型日报(8月9日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-09
    210
  • 大模型日报(6月13日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-13
    143
  • 大模型日报(5月28日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-28
    182
  • 大模型日报(6月19日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-19
    136
  • OpenAI和DeepLearning.AI最新的指令工程课程,能给我们带来什么?

    OpenAI和DeepLearning.AI最新的指令工程课程,能给我们带来什么? 目前,有很多关于LLM Prompting的文章,但大多聚焦在ChatGPT的网页用户界面上,仅…

    2023-04-28
    156
  • 大模型日报(8月22日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-22
    281
  • 大模型日报(5月9日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-09
    159
  • TextGenerator写文献综述比ChatGPT靠谱?亲试结果…

    接前几篇关于写使用AI工具写Literature Review的文章: #ChatGPT一小时完成文献综述(Systematic Literature Review)! ChatG…

    2023-04-09
    175
  • 大模型日报(7月4日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-04
    198
  • 大模型日报(7月19日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-19
    208