大模型日报(8月6日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(8月6日 学术篇)

论文

01

MathLearner:一个用于学习解决数学问题的大型语言模型智能体框架

随着人工智能(AI)的发展,大型语言模型(LLM)被广泛应用于许多领域。然而,在数学推理方面,LLM的推理能力仍然非常有限。数学在人类社会的各个方面起着重要作用,在医疗保健、交通和航空航天等领域是技术保障,在数学领域开发AI大型语言模型具有巨大潜在意义。为提高大型语言模型的数学推理能力,我们提出了一种基于归纳推理的学习解决数学问题的智能体框架。通过模拟人类学习过程中对学到信息的泛化和有效应用先前知识于新推理任务的过程,该框架在数学推理过程中表现出色。它在全局准确率上比基线方法(思维链)提高了20.96%,解决了基线无法解决的17.54%数学问题。受益于高效的检索方法,我们的模型提高了大型语言模型有效使用外部知识的能力,即模型的数学计算可以基于书面程序。在教育方面,我们的模型可以用作个性化的学习援助,从而减少教育资源的不平等。
大模型日报(8月6日 学术篇)http://arxiv.org/abs/2408.01779v1
02

带有少样本索引的生成式检索

现有的生成式检索(GR)方法依赖于训练-based索引,即微调模型以记住查询和相关文档的文档标识符(docid)之间的关联。训练-based索引存在三个限制:高训练开销,未充分利用大型语言模型(LLMs)的预训练知识,以及适应动态文档语料库的挑战。为了解决以上问题,我们提出了一种新颖的少样本基于索引的GR框架(Few-Shot GR)。它具有一种新颖的少样本索引过程,在其中我们提示LLM生成整个语料库中所有文档的docids,最终为整个语料库创建一个docid银行。在检索过程中,我们将查询传递给相同的LLM,并限制其在检索期间生成一个在索引期间创建的docid银行内的docid,然后将生成的docid映射回其对应的文档。Few-Shot GR仅依靠提示LLM,无需任何训练,使其更高效。此外,我们设计了一对多映射的少样本索引,以进一步增强Few-Shot GR。实验表明,Few-Shot GR比需要大量训练的最先进的GR方法表现更优异。
大模型日报(8月6日 学术篇)http://arxiv.org/abs/2408.02152v1
03

发挥LLM的力量:高质量基于方面的总结的微调方法

随着数字信息量的不断增加,用户需要高效的方法从长篇文档中提取关键信息。基于方面的摘要提供了一种有针对性的方法,生成专注于文档内特定方面的摘要。尽管基于方面的摘要研究取得了进展,但对模型性能的改进仍在持续。鉴于大型语言模型已经展示了在自然语言处理中改革各种任务的潜力,尤其是在摘要问题上,本文探讨了微调大语言模型(LLMs)用于基于方面的摘要任务的潜力。我们评估了微调开源基础LLMs(包括Llama2、Mistral、Gemma和Aya)对公开可用的基于领域的方面摘要数据集的影响。我们假设这种方法将使这些模型能够有效地识别和提取与方面相关的信息,从而产生比最先进技术更优质的基于方面的摘要。我们建立了一个全面的评估框架,比较了微调LLMs与竞争性基于方面的摘要方法和微调LLMs的基本对应项的性能。我们的工作通过展示微调LLMs生成高质量的基于方面的摘要的有效性,为方面摘要领域做出贡献。此外,它为在各种NLP领域中进一步探索使用LLMs进行有针对性的信息提取任务打开了大门。
大模型日报(8月6日 学术篇)
大模型日报(8月6日 学术篇)http://arxiv.org/abs/2408.02584v1
04

语言模型: 能够听取和说话

对话作为人机交互(HCI)最自然的方式。最近语言模型(SLM)的发展显著增强了基于语音的对话AI。然而,这些模型局限于轮流对话,缺乏在实时口语场景中与人类交互的能力,例如在生成的内容不理想时被打断。为解决这些限制,我们探索了交互式语音语言模型(iSLM)中的全双工建模(FDM),专注于增强实时交互,尤其是探索打断的基本能力。我们引入了一种新的模型设计,即听说语言模型(LSLM),一个配备听说双通道的端到端系统。我们的LSLM采用基于token的仅解码TTS进行语音生成,以及用于实时音频输入的流自我监督学习(SSL)编码器。LSLM融合了两个通道进行自回归生成,并实时检测轮流。探索了三种融合策略 — 早期融合、中间融合和晚期融合 — 其中间融合在语音生成和实时交互之间达到了最佳平衡。两种实验设置,基于命令的FDM和基于语音的FDM,展示了LSLM对噪声的稳健性和对多样指令的敏感性。我们的结果突显了LSLM在对现有系统影响最小的情况下实现全双工通信的能力。本研究旨在推动交互式语音对话系统的发展,增强其在现实环境中的适用性。
大模型日报(8月6日 学术篇)
大模型日报(8月6日 学术篇)http://arxiv.org/abs/2408.02622v1
05

Self-Taught Evaluators

摘要:基于模型的评估是成功模型开发的核心–作为训练的奖励模型,以及替代人类评估。为了训练这样的评估器,标准方法是收集大量关于模型响应的人类偏好判断,这既昂贵又会使数据变得陈旧。本研究提出了一种新方法,旨在通过仅使用合成训练数据来改进评估器,而无需人类注释。从未标记的指令开始,我们的迭代自我改进方案生成对比模型输出,并训练LLM作为裁判产生推理轨迹和最终判断,在每个新迭代中使用改进的预测重复这种训练。在没有任何标记的偏好数据情况下,我们的自学评估器可以将强大的LLM(Llama3-70B-Instruct)在RewardBench上从75.4提高到88.3(在多数投票下达到88.7)。这超过了常用的LLM评判者,如GPT-4,并与使用标记示例训练的表现最好的奖励模型相匹配。
大模型日报(8月6日 学术篇)
大模型日报(8月6日 学术篇)http://arxiv.org/abs/2408.02666v1
06

在生产中构建一个领域特定的Guardrail Model

生成型AI有望实现一系列渴望的能力,并在各种消费者和企业领域的工作流程中引起革命。然而,将模型投入生产涉及的远不止生成输出这么简单。它还涉及确保模型可靠、安全、高性能,并且符合特定领域的操作政策。在模型周围发展了监控措施的必要性,是为了强制执行模型的适当行为,特别是当它们投入生产时。在这篇论文中,我们以教育作为一个用例,因为教育领域对内容的恰当性有严格的要求,来展示如何训练和部署一个监控模型到生产。具体来说,我们描述了为K-12教育平台构建一个生产级监控模型的经验。我们首先制定了部署到这个敏感领域所需的要求。然后描述了我们领域特定的监控模型的训练和基准测试,这个模型在专有的与教育相关的基准测试和与安全的一般方面相关的公共基准测试上胜过了竞争的开放式和封闭式模型,这些模型的大小相似或更大。最后,我们详细介绍了在生产中部署这项服务所做的架构选择和优化;这些优化涵盖了从硬件基础设施到服务层再到语言模型推理优化的整个堆栈。希望这篇论文对其他从事生成型AI和大语言模型基础上创建生产级领域特定服务的实践者有所启示。
大模型日报(8月6日 学术篇)http://arxiv.org/abs/2408.01452v1
HuggingFace&Github

01

sycamore

Sycamore 是一个开源的、基于人工智能的文档处理引擎,用于 ETL、RAG、基于 LLM 的应用程序和对非结构化数据的分析。它可以对各种类型的文档进行分区和丰富,包括报告、演示文稿、文字记录、手册等。它可以分析和分块复杂的文档,如包含表格、图形、图表和其他信息图的 PDF 和图像。
大模型日报(8月6日 学术篇)https://github.com/aryn-ai/sycamore
02

Open-Reasoning-Tasks

这个项目是一个开放合作的仓库,在收集一系列用于训练和评估大型语言模型(LLM)推理能力的任务。该仓库包含了各种类型的推理任务,希望可以帮助改善 LLM 的推理能力。
https://github.com/NousResearch/Open-Reasoning-Tasks
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/13821.html

Like (0)
Previous 2024-08-06 17:39
Next 2024-08-07 10:15

相关推荐