大模型日报(8月16日 学术篇)

特别活动

大模型日报(8月16日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(8月16日 学术篇)

论文

01

ScalingFilter:通过反向利用缩放定律评估数据质量

高质量数据对于大型语言模型的预训练性能至关重要。不幸的是,现有的质量过滤方法依赖于已知的高质量数据集作为参考,这可能引入潜在偏见并影响多样性。本文提出了ScalingFilter,一种新颖的方法,根据两个在相同数据上训练的语言模型之间的困惑度差异评估文本质量,从而消除了过滤过程中参考数据集的影响。理论分析表明ScalingFilter相当于对缩放定律的逆利用。通过在相同数据源上使用不同质量过滤器处理的数据训练具有13亿参数的模型,我们发现ScalingFilter可以提高预训练模型在下游任务中的零次性能。为了评估质量过滤引入的偏见,我们引入了语义多样性,一种利用文本嵌入模型进行语义表示的度量。大量实验证明语义多样性是数据集多样性的可靠指标,而ScalingFilter在下游性能和语义多样性之间实现了最佳平衡。
大模型日报(8月16日 学术篇)
大模型日报(8月16日 学术篇)http://arxiv.org/abs/2408.08310v1
02

DeepSeek-Prover-V1.5:利用证明助手反馈进行强化学习和蒙特卡洛树搜索

我们介绍DeepSeek-Prover-V1.5,这是一个专为Lean 4中定理证明而设计的开源语言模型,通过优化训练和推理过程来增强DeepSeek-Prover-V1。该模型在DeepSeekMath-Base上进行预训练,专门针对正式数学语言,并使用增强的形式定理证明数据集进行监督微调。通过来自证明助手反馈的强化学习(RLPAF)进一步改进模型。除了DeepSeek-Prover-V1的单次全程证明生成方法,我们提出了RMaxTS,这是一种使用内在奖励驱动的探索策略的蒙特卡洛树搜索变体,用于生成多样的证明路径。DeepSeek-Prover-V1.5在高中级miniF2F基准测试集(63.5%)和本科水平ProofNet基准测试集(25.3%)上取得显著改进,实现了新的最先进成果。
大模型日报(8月16日 学术篇)http://arxiv.org/abs/2408.08152v1
03

AgentCourt:用对抗进化律师智能体模拟法庭

摘要:本文介绍了一个名为智能体法庭的模拟系统,模拟了整个法庭过程。法官、原告律师、辩护律师等都是由大语言模型(LLMs)驱动的自主智能体。我们的核心目标是让律师智能体通过法庭过程模拟学会如何辩论案件,并提高其整体法律技能。为了实现这一目标,我们提出了一种对抗进化的方法来培养律师智能体。智能体法庭可以基于知识库和LLM模拟法庭听证会的发生和发展,律师智能体可以不断学习和积累经验。模拟实验表明,在智能体法庭中,两个律师智能体参与了一千场对抗性法律案件后(对于现实世界律师来说可能需要十年),与进化前相比,进化的律师智能体在处理法律任务的能力上表现出持续改进。为了提高实验结果的可信度,我们邀请了一组专业律师来评估我们的模拟。评估表明,进化的律师智能体在反应速度、专业知识和逻辑严密性方面取得了显著进步。这项工作为推进LLM驱动的智能体技术在法律情景中的应用铺平了道路。源代码请访问 https://github.com/relic-yuexi/AgentCourt。
大模型日报(8月16日 学术篇)
大模型日报(8月16日 学术篇)http://arxiv.org/abs/2408.08089v1
04

RAGChecker: 诊断检索增强生成的微调框架

尽管检索增强生成(RAG)在利用外部知识方面表现出有希望的能力,但由于RAG的模块化性质、长篇回复的评估以及测量的可靠性,对RAG系统的全面评估仍具有挑战性。在本文中,我们提出了一个细化的评估框架RAGChecker,该框架整合了一套检索和生成模块的诊断性指标。元评估验证了RAGChecker与人类判断具有显著更好的相关性,超过其他评估指标。利用RAGChecker,我们评估了8个RAG系统,并对其性能进行了深入分析,揭示了RAG架构设计选择中的见解性模式和权衡。RAGChecker的指标可以指导研究人员和实践者开发更有效的RAG系统。
大模型日报(8月16日 学术篇)http://arxiv.org/abs/2408.08067v1
05

利用网络爬虫数据进行高质量微调

大多数大型语言模型使用昂贵的人工注释数据或GPT-4生成数据进行微调,这不能保证在特定领域的性能。我们认为,尽管网络抓取的数据通常存在格式错误导致语义不准确,但它仍然可以作为特定领域高质量监督微调的宝贵来源,而不依赖于像GPT-4这样的先进模型。为此,我们通过将网络抓取的数据与较小的高质量数据集进行对齐,自动创建配对训练数据集。通过在这个数据集上训练语言模型,我们可以将具有不规则格式的网络数据转换为高质量数据。我们的实验表明,用模型转换后的数据训练可以取得更好的结果,在中国数学问题上平均得分超过仅使用高质量数据训练的9.4%。此外,我们的7B模型表现优于几个大于32B的开源模型,并超过了著名的闭源模型,如GPT-3.5,突出了我们方法的有效性。
大模型日报(8月16日 学术篇)
大模型日报(8月16日 学术篇)http://arxiv.org/abs/2408.08003v1
06

大语言模型能理解符号图形程序吗?

评估大语言模型(LLMs)的能力通常具有挑战性,部分原因是很难找到它们在训练期间未接触过的任务。我们通过转向一个新任务来解决这一挑战:专注于符号图形程序,这是一种流行的图形内容表示方法,用于过程生成视觉数据。LLMs在程序合成方面表现出令人兴奋的潜力,但它们是否理解符号图形程序?我们通过回答与图形内容相关的问题来描述LLMs对符号程序的理解能力。这项任务具有挑战性,因为仅通过符号程序很难回答问题,但通过人类实验验证,从相应的图形内容中回答这些问题很容易。为了理解符号程序,LLMs可能需要具备在没有直接访问已呈现的视觉内容的情况下想象相应图形内容的能力。我们利用这项任务创建了一个大型基准来评估LLMs对符号图形程序的语义理解能力。我们评估当前的LLMs,并发现这项任务可以区分现有的LLMs,而被认为擅长推理的模型表现更好。最后,我们介绍了符号指令微调(SIT)来提高这种能力。具体而言,我们查询GPT4-o生成的问题和图像,然后对LLM进行微调。我们还发现SIT数据可以提高LLMs的一般指令遵循能力。
大模型日报(8月16日 学术篇)
大模型日报(8月16日 学术篇)http://arxiv.org/abs/2408.08313v1
07

代码的自然语言概要:LLM 时代的文学编程

我们提议将自然语言概述作为一种新颖的模态和交互界面,为开发人员在整个软件开发过程中提供AI辅助。代码函数的自然语言概述包括用简明散文写成的多个语句,这些语句将代码划分并以文学编程的风格总结其主要思想。关键是,我们发现现代LLM在实践中可以生成准确且高质量的自然语言概述。此外,自然语言概述实现了代码和自然语言之间的双向同步,允许对其中一个的更改自动反映在另一个中。我们讨论了自然语言概述的许多用例:它们可以加快对代码和差异的理解和导航,简化代码维护,增强代码搜索,引导代码生成等。然后,我们提出并比较了多种LLM提示技术以生成概述,并邀请专业开发人员评判概述质量。最后,我们提出两个案例研究,应用自然语言概述于代码审查和恶意软件检测的困难任务。
大模型日报(8月16日 学术篇)
大模型日报(8月16日 学术篇)http://arxiv.org/abs/2408.04820v1
08

BAM!Just Like That:混合专家模型的简单高效参数循环利用

摘要:混合专家(MoE)框架已经成为大语言模型的流行架构,因为其相比密集模型具有更出色的性能。然而,在大规模环境中从头训练MoEs成本过高。现有方法通过独立预训练多个密集专家模型并使用它们初始化MoE来缓解这一问题。我们提出了BAM(Branch-Attend-Mix),这是一个简单而有效的方法,可以充分利用专门的密集模型,不仅使用它们的前馈网络(FFN)来初始化MoE层,还利用专家的注意力参数完全,通过将它们初始化为注意力混合(MoA)层的软变体。我们探索了两种方法来循环利用注意力参数:1)从密集模型初始化单独的注意力专家,包括所有注意力参数,以获得最佳模型性能;2)跨所有专家共享关键和值参数,以促进更好的推理效率。为了进一步提高效率,我们采用并行注意力变换器架构到MoEs中,允许同时计算注意力专家和FFN专家。我们在包含从5.9亿到20亿参数的种子模型上进行的实验表明,BAM在模糊度和下游任务性能方面均超越了基线,在相同的计算和数据约束条件下。
大模型日报(8月16日 学术篇)
大模型日报(8月16日 学术篇)
大模型日报(8月16日 学术篇)http://arxiv.org/abs/2408.08274v1
HuggingFace&Github

01

Generative photomontage

Generative Photomontage(生成式照片拼贴)是一种结合摄影和计算机生成技术的艺术形式,通过算法自动融合多张图像,创造出独特的视觉作品。它允许艺术家探索新的创意表达方式,具有高度的多样性和互动性。
大模型日报(8月16日 学术篇)https://lseancs.github.io/generativephotomontage/
02

Boreal

Boreal 是一个提升 Flux-Dev 模型真实感的实验性图像生成模型,通过使用“Boring Reality”数据集,目标是减少浅景深、增加动态姿势和改进皮肤纹理,从而生成更复杂和真实的图像。
大模型日报(8月16日 学术篇)https://huggingface.co/kudzueye/Boreal
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/13590.html

Like (0)
Previous 2024-08-16 18:17
Next 2024-08-16 22:49

相关推荐