大模型日报(8月27日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(8月27日 学术篇)

论文

01

大语言模型时代的索赔验证:A Survey

摘要:互联网上大量且不断增加的数据量,再加上繁重的手动索赔和事实验证任务,引发了对自动索赔验证系统开发的兴趣。多年来,已提出了几种基于深度学习和Transformer的模型用于此任务。随着大型语言模型(LLMs)的引入及其在几个NLP任务中的出色表现,我们看到了基于LLM的索赔验证方法的激增,以及对新方法的使用,如检索增强生成(RAG)。在本调查中,我们提供了最近使用LLMs的索赔验证框架的综合账户。我们详细描述了这些框架中使用的索赔验证流水线的不同组成部分,包括常见的检索、提示和微调方法。最后,我们描述了为此任务创建的公开可用的英文数据集。
大模型日报(8月27日 学术篇)http://arxiv.org/abs/2408.14317v1
02

专注的大语言模型是稳定的多次学习者

摘要:在上下文学习(ICL)中,大语言模型(LLMs)通过学习示范实现快速任务适应。近期实验证明,随着LLMs可用上下文长度的增加,ICL在许多示范设置下的表现并不一定会有很好的规模化。我们在理论上和实验上证实,原因在于更多的示范会使模型的注意力从查询中分散,阻碍其理解关键内容。受人类如何从例子中学习的启发,我们提出了一种无需训练的方法FocusICL,通过在token级别进行琐碎性过滤,避免注意力被不重要的内容分散,并在示范级别上进行分层关注,进一步确保足够的关注当前查询。我们还设计了一个基于示范模型困惑度的高效超参数搜索策略。全面的实验证明,FocusICL相较原始ICL平均性能提升了5.2%,并在许多示范情境下表现优异。
大模型日报(8月27日 学术篇)http://arxiv.org/abs/2408.13987v1
03

DHP Benchmark: LLMs是否是良好的自然语言生成评估器?

大语言模型(LLMs)在自然语言生成(NLG)任务中越来越多地充当评估者。然而,在评分NLG质量方面,LLMs的能力仍未充分探索。当前研究依赖于人工评估和简单指标,无法捕捉LLMs在不同NLG任务中的洞察力。为了弥补这一空白,我们提出了分层扰动辨别(DHP)基准框架,通过提供量化的辨别分数,利用分层扰动文本数据和统计检验系统地衡量LLMs的NLG评估能力。我们重新建立了六个评估数据集,涵盖了四个NLG任务:摘要、故事完成、问题回答和翻译。我们对五个主要LLM系列的全面评估为它们作为NLG评估者的优势和局限性提供了关键见解。
大模型日报(8月27日 学术篇)http://arxiv.org/abs/2408.13704v1
04

CodeRefine: 用于增强研究论文LLM生成代码实现的流水线

本文介绍了CodeRefine,这是一个使用大语言模型(LLMs)将研究论文方法自动转化为功能代码的新颖框架。我们的多步方法首先从论文中提取和总结关键文本片段,分析其代码相关性,并使用预定义的本体论创建知识图。然后从这个结构化表示生成代码,并通过提出的回顾式检索增强生成方法来增强代码。CodeRefine解决了将理论研究与实际实现相结合的挑战,为LLM零-shot提示提供了更准确的替代方案。对各种科学论文的评估表明,CodeRefine能够改进从论文中实现的代码,潜在地加速了前沿算法在现实应用中的采用。
大模型日报(8月27日 学术篇)http://arxiv.org/abs/2408.13366v1
05

Power Scheduler:一个与批量大小和 Token 数量无关的学习速率调度器

摘要:寻找语言模型预训练的最佳学习率是一项具有挑战性的任务。这不仅因为学习率、批大小、训练 token 数量、模型大小和其他超参数之间存在复杂的相关性,而且因为在拥有数十亿或数万亿参数的大型语言模型上执行超参数搜索成本过高。最近的研究提出使用小型代理模型和小语料库执行超参数搜索,并将最佳参数转化到大模型和大语料库中。本文通过数千次小型实验,发现了变量之间的幂律关系,并展示了其在模型大小之间的可传递性。基于观察,我们提出了一种新的学习率调度程序,Power 调度程序,它在处理训练 token 数量和批大小时是不可知的。实验表明,将 Power 调度程序与 Maximum Update Parameterization(muP)相结合,无论训练 token 数量、批大小、模型大小乃至模型架构如何,都能一致地实现令人印象深刻的性能。我们使用 Power 调度程序训练的 3B dense 和 MoE 模型与最先进的小型语言模型性能相媲美。我们在 https://ibm.biz/BdKhLa 上开源了这些预训练模型。
大模型日报(8月27日 学术篇)
大模型日报(8月27日 学术篇)http://arxiv.org/abs/2408.13359v1
06

SWE-bench-java:Java的GitHub问题解决基准测试

摘要:GitHub问题解决是软件工程中的关键任务,近年来在工业界和学术界受到了重视。在这一任务中,SWE-bench已经发布用于评估大型语言模型(LLMs)的问题解决能力,但目前仅关注Python版本。然而,支持更多编程语言也很重要,因为工业界有很强的需求。作为迈向多语言支持的第一步,我们开发了Java版本的SWE-bench,称为SWE-bench-java。我们公开发布了数据集,以及相应的基于Docker的评估环境和排行榜,将在未来几个月持续维护和更新。为了验证SWE-bench-java的可靠性,我们实现了一个经典方法SWE智能体,并在其上测试了几个强大的LLMs。众所周知,开发高质量的多语言基准测试是耗时且劳动密集的,所以我们欢迎通过拉取请求或合作来加速其迭代和完善,为全自动编程铺平道路。
大模型日报(8月27日 学术篇)http://arxiv.org/abs/2408.14354v1
07

用于音乐的基础模型: A Survey

近年来,基础模型(FMs)如大语言模型(LLMs)和潜在扩散模型(LDMs)已经深刻影响到音乐等多个领域。本综述评估了音乐领域的最先进的预训练模型和基础模型,涵盖了表示学习、生成学习和多模态学习等内容。首先我们定位音乐在各个行业中的重要性,并追溯了AI在音乐中的发展历程。通过勾勒基础模型所针对的模态,我们发现在FM的发展中许多音乐表示尚未得到充分探索。然后,重点放在之前方法在多样音乐应用上的灵活性不足上,以及FM在音乐理解、生成和医疗应用中的潜力。通过全面探讨模型预训练范式、架构选择、标记化、微调方法和可控性的细节,我们强调了一些应该得到很好探索的重要话题,如指导调整和上下文学习、规模定律和涌现能力,以及长序列建模等等。一个专门的部分呈现了对音乐智能体的深入洞察,伴随着对于预训练和下游任务中必要的数据集和评估的彻底分析。最后,强调了伦理考虑的重要性,我们主张未来关于FM在音乐中的研究应更注重诸如可解释性、透明性、人类责任和版权问题等议题。本文提供了关于FM在音乐中未来挑战和趋势的见解,旨在塑造人工智能与音乐领域的人类合作轨迹。
大模型日报(8月27日 学术篇)
大模型日报(8月27日 学术篇)http://arxiv.org/abs/2408.14340v1
08

大语言模型中下一个token预测的法则

大语言模型(LLMs)已被广泛应用于各个应用领域,然而它们的黑盒特性给理解这些模型如何处理输入数据以进行预测带来了重大挑战。本文介绍了一个精确而量化的规律,规定了预训练LLMs中通过中间层学习上下文化token嵌入以进行下一个token预测的过程。我们的发现显示,从最底层到最高层,每一层对提高预测准确性都有相同的贡献 —— 这是一个普遍现象,观察到在各种开源LLMs中,它们建立在Transformer、RWKV和Mamba等架构上。我们证明这个规律为LLM的发展和应用提供了新的视角和见解,包括模型的扩展、预训练任务和信息流。总的来说,我们的规律通过审查其内部数据处理机制,使得更加精细化的设计、训练和解释LLMs的方法成为可能。
大模型日报(8月27日 学术篇)http://arxiv.org/abs/2408.13442v1
HuggingFace&Github

01

LitServe

LitServe 是一个基于 FastAPI 的高性能 AI 模型部署引擎。它提供了批处理、流式处理和 GPU 自动扩展等功能,可以轻松部署各种 AI 模型,包括 LLM、计算机视觉和语音等。LitServe 的性能至少比普通的 FastAPI 快 2 倍。
大模型日报(8月27日 学术篇)https://github.com/Lightning-AI/LitServe
02

QuestionImprover

QuestionImprover 是一个基于大语言模型的”思维工具”,用于提高用户提出的问题的深度和质量。它通过让专家角色参与一种新颖的基于图的推理节奏,来培养一个不断改进问题的迭代探究循环。
https://github.com/sockcymbal/QuestionImprover
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/13342.html

Like (0)
Previous 2024-08-26 21:33
Next 2024-08-27 23:47

相关推荐

  • 大模型日报(4月25日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-04-25
    138
  • 大模型日报(6月24日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-24
    196
  • TextGenerator写文献综述比ChatGPT靠谱?亲试结果…

    接前几篇关于写使用AI工具写Literature Review的文章: #ChatGPT一小时完成文献综述(Systematic Literature Review)! ChatG…

    2023-04-09
    161
  • 大模型日报(8月9日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-09
    201
  • Google Colab中的AI Monica真的无敌了,轻松编写和调优程序!

    这两天刚好在调程序中,无意中用到了Google Monica,真的让人惊叹不已! 先给结论:编写、调优程序,解释运行结果基本无障碍! Colab + Monica的流畅和无缝程度,…

    2023-06-21
    198
  • 大模型日报(6月6日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-06
    146
  • 实战Elicit, 让你惊艳的AI学术研究工作神器(三)

    Systematic Literature Review绝对是每个学术研究工作者的必经之路,顺利完成一篇SLR才能代表你真正了解该领域,成为该领域的专家,并且知道在该领域有哪些Ga…

    2023-06-06
    109
  • 大模型日报(4月10日 学术篇)

    特别活动! 欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 鹰与金翅雀:使用矩阵值状态和动态…

    2024-04-10
    202
  • 大模型日报(4月8日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 中文迷你 LLM:预训练一个以中文为中心的大…

    2024-04-08
    121
  • 大模型日报(7月1日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-01
    212