大模型日报（4月15日学术篇）

欢迎观看大模型日报，如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。

欢迎大家一起交流！

论文

OSWorld：在真实计算机环境中为开放式任务基准测试多模态智能体

自主智能体能够在最小干预下执行复杂的计算机任务，有潜力改变人机交互，显著提高可访问性和生产力。为了解决现有基准缺少交互环境或仅限于特定应用程序领域的局限性，我们引入了OSWorld，这是第一个可扩展的真实计算机环境，支持Ubuntu、Windows和macOS等各种操作系统上的任务设置、基于执行的评估和交互式学习。OSWorld可以作为用于评估涉及任意应用程序的开放式计算机任务的统一、集成的计算机环境。通过OSWorld，我们创建了包含369个计算机任务的基准，涵盖了真实网络和桌面应用程序、操作系统文件I/O和跨多个应用程序的工作流程。在OSWorld上对最先进的LLM/VLM智能体进行广泛评估揭示了它们作为计算机助手的显著不足之处。通过OSWorld进行的全面分析为开发以前基准无法实现的多模态通用智能体提供了宝贵的见解。我们的代码、环境、基线模型和数据可在https://os-world.github.io 上公开获取。

http://arxiv.org/abs/2404.07972v1

蒙特卡罗树搜索与玻尔兹曼探索

摘要：蒙特卡洛树搜索（MCTS）方法，如应用于树的置信上界（UCT），对自动规划技术至关重要。然而，当初始行动看似劣势时，UCT可能会缓慢探索最佳行动。最大熵树搜索（MENTS）将最大熵原则融入MCTS方法中，利用Boltzmann策略来采样动作，自然地鼓励更多探索。我们介绍了两种算法，Boltzmann树搜索（BTS）和衰减熵树搜索（DENTS），以解决MENTS的一个主要局限性，并保持Boltzmann策略的好处，例如使用Alias方法更快地采样动作。我们的实证分析显示，我们的算法在包括围棋在内的几个基准领域中表现出一致的高性能。

http://arxiv.org/abs/2404.07732v1

使用更少token预训练小型基础LLM

我们研究了一种简单方法的有效性，用于从现有的大型基础语言模型（LM）中开发一个小型基础LM：首先从较大LM中继承一些Transformer块，然后在较大模型的原始预训练数据的非常小的子集（0.1%）上对这个较小模型进行训练。我们称这种简单的方法为Inheritune，并首先演示了它用于构建具有15亿参数的小型基础LM，使用10亿token（以及较大LM的30亿参数的起始几层）；我们仅使用一个A6000 GPU不到半天的时间完成。在9个不同的评估数据集以及MMLU基准测试中，所得模型与公开可用的10亿至20亿规模的基础模型相比表现优异，其中一些模型使用了更多50到1000倍的token进行训练。

我们在略有不同的环境中研究了Inheritune，在这里我们训练小的LM利用较大的LM及其完整的预训练数据集。在这里，我们展示了使用来自GPT2-medium（355M）和GPT-2-large（770M）的一些层来训练的较小LM可以在OpenWebText数据集上以90亿token的情况下，在相同数量的训练步骤上有效匹配它们更大的对应物的val loss。我们通过广泛的实验分析了我们的方法，并展示了它在不同情况下的有效性。我们的代码可在https://github.com/sanyalsunny111/LLM-Inheritune 中找到。

http://arxiv.org/abs/2404.08634v1

ChatGPT是否改变了学术写作风格？

根据从2018年5月至2024年1月提交的一百万篇arXiv论文，我们通过统计词频变化的分析评估了ChatGPT摘要中的文本密度。我们的模型经过仔细的噪声分析，在真实摘要和ChatGPT修改摘要（模拟数据）的混合数据上进行了校准和验证。我们发现ChatGPT对arXiv摘要有着越来越大的影响，尤其是在计算机科学领域，ChatGPT修改的摘要比例约为35％，如果以最简单的提示之一“修改以下句子”为基准。最后，我们对ChatGPT渗入学术写作风格的积极和消极方面进行了分析。

http://arxiv.org/abs/2404.08627v1

LLM中Token的理论

尽管有很多研究试图规避语言建模中的tokenization（Clark等人，2022年；Xue等人，2022年），但目前的共识是，这是设计最先进性能语言模型的必要初始步骤。本文从理论角度研究了tokenization，通过研究transformers在简单数据生成过程中的行为。当在来自某些简单的kth阶马尔可夫过程的数据上训练时，transformers表现出一个令人惊讶的现象-在没有进行tokenization的情况下，它们在实证上未能学习正确的分布，并根据单字符模型进行预测（Makkuva等人，2024年）。然而，通过添加tokenization，我们实证观察到transformers突破了这一障碍，并能够有效地对来自源的序列概率进行建模，实现了较小的交叉熵损失。基于这一观察作为起点，我们研究了transformers在有无tokenization时实现的端到端交叉熵损失。通过适当的tokenization，我们表明transformers学习的甚至是最简单的单字符模型也能有效地对来自kth-order马尔可夫来源的序列的概率进行建模。我们的分析通过研究transformers在马尔可夫数据上的行为为实践中使用tokenization提供了理由。

http://arxiv.org/abs/2404.08335v1

减小差异的零阶方法用于微调语言模型

细调语言模型（LMs）在各种下游任务中表现出成功。然而，随着LMs的扩大规模，反向传播的内存需求变得过高。零阶（ZO）优化方法可以利用内存高效的前向传递来估计梯度。最近，MeZO（ZO-SGD的改编）已被证明在与合适的任务提示结合时，始终优于零-shot学习和上下文学习。在这项工作中，我们将ZO方法与方差减少技术相结合，以增强基于推理的LM微调的稳定性和收敛性。我们引入了内存高效的零阶随机方差减少梯度（MeZO-SVRG），并展示了它在多个LM微调任务中的有效性，消除了对特定任务提示的依赖。在基准GLUE任务中，对一系列遮蔽和自回归LM进行评估时，MeZO-SVRG在完整和部分参数微调设置下的测试准确性均提高了高达20%。MeZO-SVRG在计算时间上受益，通常在GPU小时数减少2倍的情况下，超过MeZO的峰值测试准确性。与一阶SGD相比，MeZO-SVRG显着减少了所需内存占用量，即自回归模型减少了2倍。我们的实验表明，与更大的批量大小相比，MeZO-SVRG的内存节省逐渐改善。

http://arxiv.org/abs/2404.08080v1

HuggingFace&Github

STORM

STORM 是一个基于互联网搜索的 LLM 系统，可以从头开始编写类似维基百科的文章。STORM通过两个步骤来生成带有引文的长篇文章：写作前阶段和写作阶段。此外，STORM还采用了两种策略来自动提出好问题：视角引导提问和模拟对话。该系统以高度模块化的方式实现，并被视为自动化知识管理的一个例子。

https://github.com/stanford-oval/storm

MagicTime

MagicTime 是一个基于给定提示的视频生成官方实现。其主要思想是通过提出的方法和数据集来增强视频生成模型准确描绘现实世界的能力。

https://github.com/PKU-YuanGroup/MagicTime

MaxKB

MaxKB 是一款基于 LLM 大语言模型的知识库问答系统。MaxKB = Max Knowledge Base，旨在成为企业的最强大脑。它支持开箱即用，用户可以直接上传文档或自动爬取在线文档，支持文本自动拆分和向量化，提供智能问答交互体验。此外，MaxKB 也支持无缝嵌入到第三方业务系统，而且可以多模型支持，包括对接主流的大模型，如本地私有大模型（如 Llama 2）、Azure OpenAI 和百度千帆大模型等。