大模型日报(5月24日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月24日 学术篇)

论文

01

人类与大语言模型中的分歧创造力

最近,大型语言模型(LLMs)在能力上的激增导致有人声称它们正在接近类似于人类能力的创造力水平。这个想法引发了一种兴奋和忧虑的融合。然而,这场讨论中缺失的一个关键部分是对LLM创造力的系统评估,特别是与人类发散性思维相比。为了填补这一空白,我们利用近期创造力科学的进展,构建了一个框架,深入分析了最先进的LLMs和10万人类的发散创造力。我们发现证据表明LLMs确实在特定的创造性任务上,如发散联想和创意写作,能够超越人类能力。我们的定量基准框架为开发更有创造力的LLMs打开了新的道路,但也鼓励更加细致地探究构成人类创造性思维过程的独特元素,与那些可以人工生成的元素相比。
大模型日报(5月24日 学术篇)http://arxiv.org/abs/2405.13012v1
02

扩散用于世界建模:Atari 中视觉细节的重要性

世界模型是训练智能体在安全和高效的方面具有潜力的方法。最近的世界模型主要使用序列化的离散潜变量来模拟环境动态。然而,这种压缩成紧凑的离散表示可能忽略了对强化学习重要的视觉细节。同时,扩散模型已成为生成图像的主要方法,挑战了建模离散潜变量的传统方法。受到这种范式转变的启发,我们介绍了DIAMOND(DIffusion As a Model Of eNvironment Dreams),这是一个在扩散世界模型中训练的强化学习智能体。我们分析了必须进行的关键设计选择,使得扩散适合世界建模,并展示了如何通过改善视觉细节可以提高智能体的表现。DIAMOND在竞争性的Atari 100k基准测试中取得了平均人类标准化得分1.46;这是完全在世界模型中训练的智能体的最佳表现。为了促进对于世界建模扩散的未来研究,我们在https://github.com/eloialonso/diamond 上发布了我们的代码、智能体和可玩的世界模型。
大模型日报(5月24日 学术篇)http://arxiv.org/abs/2405.12399v1
03

利用任务特定的考试生成自动评估检索增强语言模型

我们提出了一种新方法来衡量检索增强大型语言模型(RAG)的任务特定准确性。通过在基于任务相关文档语料库的自动生成的综合考试中对RAG进行评分来进行评估。我们的方法是一种自动化、成本高效、可解释且稳健的策略,可选择RAG系统的最佳组件。我们利用项目响应理论(IRT)来估计考试的质量及其对任务特定准确性的信息量。IRT还提供了一个自然的方式,通过消除对模型能力不够信息丰富的考试问题来迭代改进考试。我们在基于Arxiv摘要、StackExchange问题、AWS DevOps故障排除指南和SEC文件的四个新开放式问答任务中展示了我们的方法。此外,我们的实验揭示了影响RAG性能的因素的更普遍见解,如大小、检索机制、提示和微调。最值得注意的是,我们的发现表明,选择正确的检索算法通常带来的性能增益要大于仅仅使用更大的语言模型。
大模型日报(5月24日 学术篇)http://arxiv.org/abs/2405.13622v1
04

思维的温度:温度树在大语言模型中引发推理

大语言模型(LLMs)作为人工智能中强大的工具在复杂决策场景中涌现,但它们静态的问题解决策略常常限制了其在动态环境中的适应性。我们通过粒子群优化探索了通过温度树($T^2$)提示来增强LLMs的推理能力,称为思维的$T^2$($T^2oT)。主要关注通过动态调整搜索参数,特别是温度,来改善决策过程,提高准确性而不增加计算需求。我们在实证中验证了我们的混合$T^2oT方法在单解准确性、多解生成和文本生成质量方面的增强。我们的发现表明,基于温度的动态搜索深度调整可能导致不同结果,而当固定搜索深度与$T^2oT的自适应能力相结合时,提供更可靠和多功能的问题解决策略。本研究突出了未来在优化算法与基础语言模型的相互作用方面的潜力,特别是通过我们为24点游戏和创意写作任务开发的例证。
大模型日报(5月24日 学术篇)http://arxiv.org/abs/2405.14075v1
05

九章3.0:通过训练小数据合成模型高效提升数学推理

数学推理是大型语言模型(LLM)在现实世界应用中的重要能力。为了增强这种能力,现有工作要么收集大规模的与数学相关的文本进行预训练,要么依赖更强大的LLM(如GPT-4)来合成海量数学问题。这两种类型的工作通常导致训练或合成成本很高。为了降低成本,基于开源可用的文本,我们提出了一种高效的方式,用于数学问题合成训练小型LLM,以生成足够高质量的预训练数据。为了实现这一目标,我们使用GPT-4创建了一个数据集,将其数据合成能力融入小型LLM中。具体而言,我们基于人类教育阶段制定了一组提示,引导GPT-4合成涵盖不同数学知识和难度水平的问题。此外,我们采用基于梯度的影响估计方法选择最有价值的数学相关文本。两者都被输入到GPT-4中,用于创建知识蒸馏数据集以训练小型LLM。我们利用它合成了600万个数学问题,用于预训练我们的JiuZhang3.0模型,只需要调用GPT-4 API 9.3k次,并在46亿数据上进行预训练。实验结果表明,JiuZhang3.0在几个数学推理数据集上都实现了最先进的性能,在自然语言推理和工具操作设置下。我们的代码和数据将在url{https://github.com/RUCAIBox/JiuZhang3.0}上公开发布。
大模型日报(5月24日 学术篇)http://arxiv.org/abs/2405.14365v1
06

优化人工智能工作负载的声明性系统

现代人工智能模型提供了一个长久以来的梦想:处理几乎任何类型数据的分析查询。传统上,从公司文件中提取事实、从科学论文中获取数据,或从图像和视频文集中获得洞见,都是困难且昂贵的。如今的模型可以高精度地完成这些任务。然而,想要回答一个实质性的AI查询的程序员必须协调大量的模型、提示和数据操作。本文介绍了Palimpzest,一个系统通过在声明性语言中定义查询,使任何人都可以处理基于人工智能的分析查询。该系统利用成本优化框架来实现查询,这个框架探索了AI模型、提示技术和相关基础模型优化的搜索空间,以在运行时间、财务成本和输出数据质量之间获得最佳权衡。我们描述了基于人工智能的分析任务负载、Palimpzest使用的优化方法以及原型系统本身。我们在法律发现、房地产搜索和医学模式匹配任务上评估了Palimpzest。我们展示,即使我们简单的原型也提供多种吸引人的计划,其中一种速度快了3.3倍,便宜了2.9倍,并且提供了比基准方法更好的数据质量。启用并行处理后,Palimpzest可以生成多达90.3倍速度提升,相对于单线程的GPT-4基准,成本降低了9.1倍,同时获得了原型方法的83.5%的F1分数。这些都不需要用户进行额外的工作。
大模型日报(5月24日 学术篇)http://arxiv.org/abs/2405.14696v1
07

RoPE基于各种上下文长度的基础

位置嵌入是当前大型语言模型(LLMs)的核心组件。旋转位置嵌入(RoPE)是一种使用旋转矩阵编码位置信息的技术,已成为许多LLMs(如Llama系列)中位置嵌入的默认选择。RoPE已被进一步应用于扩展长上下文能力,基本上是根据调整RoPE的“基本”参数来缓解位置嵌入中的分布外问题。然而,在本文中,我们发现LLMs可能根据OOD理论获得了一种表面上的长上下文能力。我们重新审视了RoPE在LLMs中的作用,并提出了一种新的长期衰减属性,我们推导出RoPE基础约束上下文长度的属性:基值存在绝对下限,以获取特定上下文长度能力。我们的工作从理论和实证上揭示了上下文长度与RoPE基础之间的关系,这可能为未来的长上下文训练提供启示。
大模型日报(5月24日 学术篇)http://arxiv.org/abs/2405.14591v1
08

DeepSeek-Prover: 通过大规模合成数据推进LLMs中的定理证明

Lean等定理助手彻底改变了数学证明验证,确保高准确性和可靠性。虽然大型语言模型(LLMs)在数学推理方面表现出潜力,但其在形式定理证明方面的进展受到训练数据不足的阻碍。为解决这一问题,我们提出了一种方法,通过高中和本科水平的数学竞赛问题生成大量的Lean 4证明数据。这种方法涉及将自然语言问题翻译成形式语句,过滤低质量语句,并生成证明以创建合成数据。在这个由800万形式语句和证明组成的合成数据集上微调DeepSeekMath 7B模型后,我们的模型在Lean 4 miniF2F测试中以64个样本获得了46.3%的整个证明生成准确率,并在64个样本和累计52%的情况下超过了基线GPT-4的23.0%,以及41.0%的树搜索强化学习方法。此外,我们的模型成功证明了Lean 4正式国际数学奥林匹克(FIMO)基准中的148个问题中的5个,而GPT-4未能证明任何一个。这些结果显示了利用大规模合成数据增强LLMs定理证明能力的潜力。合成数据集和模型将提供给研究人员,以促进这一有前途领域的进一步研究。
大模型日报(5月24日 学术篇)http://arxiv.org/abs/2405.14333v1
HuggingFace&Github

01

Phi-3

Phi-3 是微软开发的一系列开放 AI 模型,包括 Phi-3-mini(3.8B 语言模型,可在微软 Azure AI 工作室、Hugging Face 和 Ollama 上使用)等,Phi-3 模型是最有能力且具成本效益的小型语言模型,在各种语言、推理、编码和数学基准测试中优于同尺寸和更大尺寸的模型,Phi-3-small 仅 7B 参数就在多种基准测试中击败 GPT-3.5 ,所有数据采用相同管道得出,可能与其他公布数据因评估方法略有不同而有差异,更多基准细节在技术论文中有提供。
大模型日报(5月24日 学术篇)https://github.com/microsoft/Phi-3CookBook
02

Perplexica 

Perplexica 是一个由人工智能驱动的开源搜索工具,它使用先进的机器学习算法深入互联网搜索并理解用户的问题,提供带有来源引用的明确答案。它以 SearxNG 为基础,确保用户在不泄露隐私的情况下获得最新信息。
大模型日报(5月24日 学术篇)https://github.com/ItzCrazyKns/Perplexica
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15153.html

Like (0)
Previous 2024-05-24 10:46
Next 2024-05-26 19:42

相关推荐

  • 大模型日报(6月15~16日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 学习 0…

    2024-06-16
    163
  • AI学术 | Jenni AI 从0到1量身定制,加速你的论文写作!(二)

    没有一款AI工具能够解决所有问题,即便只是写论文。 但只要这个工具有自己的亮点,我们就可以在论文写作工作进行分解的基础上,同时将不同的AI工具进行组合。这样,一套组合拳打出来,必然…

    2023-08-14
    161
  • 大模型日报(5月20日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-20
    209
  • Claude突然被封?解封看这一篇就够了!

    大家有没有碰到这样的情况,半小时前还用得好好的,突然间Slack里Claude APP没有了? 这几天正在疯狂地码文章,没有Claude协助,效率肯定要指数级下降啊! 于是,我火急…

    2023-04-27
    235
  • 大模型日报(4月11日 学术篇)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 数据过滤的扩展定律 &#8212…

    2024-04-11
    179
  • 大模型日报(5月8日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-08
    157
  • #看看代码 机器学习7步进行肺癌预测

    今日立冬,刚好一杯咖啡的工夫,看一段机器学习的几行经典代码,放松一下。 ​ ​ 代码很简单,但却不失机器学习标准流程的必要步骤。 ​ 使用SVM(支持向量机)对肺癌数据集进行学习,…

    2022-11-07
    183
  • 大模型日报(8月17~18日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-18
    240
  • 导师分享,如何与导师沟通成效最大?

    近日因为写文章的事情,和博导沟通的比较多,或许因为在交流中还存在一些问题,导师当天就果断分享(教育)了几点,其中,我想我应该触犯了几点。 建议毕竟是从导师的角度出发,所以对学生的要…

    2022-07-22
    196
  • 大模型日报(4月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-04-29
    155