大模型日报(6月11日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(6月11日 学术篇)

论文

01

WildBench: 通过由真实用户提出的挑战性任务对LLMs进行基准测试

我们介绍了WildBench,一个自动评估框架,旨在使用具有挑战性的、真实世界的用户查询对大语言模型(LLMs)进行基准测试。WildBench包括从一百万条人类-聊天机器人对话记录中精心挑选出的1,024个任务。为了使用WildBench进行自动评估,我们开发了两个指标,WB-Reward和WB-Score,可以使用像GPT-4-turbo这样的先进LLMs进行计算。WildBench评估使用任务特定的检查表系统地评估模型输出,并提供结构化解释,验证得分和比较,从而产生更可靠且可解释的自动判断。WB-Reward采用精细的模型响应之间的成对比较,产生五种潜在结果:更好得多、稍微更好、稍微更差、更差得多,或是平局。与以往仅使用单个基准模型的评估不同,我们选择了三个基线模型,具有不同的性能水平,以确保全面的成对评估。此外,我们提出了一种简单的方法来减轻长度偏差,通过将“稍微更好/更差”的结果转换为“平局”,如果赢家响应超过败家响应超过K个字符。WB-Score单独评估模型输出的质量,使其成为一种快速且成本高效的评估指标。WildBench的结果表明,在困难任务上,与Chatbot Arena上人工评分的Elo评分存在很强的相关性。具体而言,WB-Reward与排名前列的模型达到皮尔逊相关系数0.98。此外,WB-Score达到0.95,超过了ArenaHard的0.91和AlpacaEval2.0的0.89,以及正常胜率0.87。
大模型日报(6月11日 学术篇)http://arxiv.org/abs/2406.04770v1
02

CRAG:全面 RAG 基准

摘要:最近,检索增强生成(RAG)已经成为缓解大语言模型(LLM)在知识匮乏方面的不足的一个有希望的解决方案。然而,现有的RAG数据集并未充分代表真实世界问答(QA)任务的多样性和动态性质。为了弥补这一差距,我们引入了全面的RAG基准(CRAG),这是一个包含4,409个问题-答案对和模拟网页和知识图谱(KG)搜索的模拟API的事实性问答基准。CRAG旨在涵盖来自五个领域和八个问题类别的各种问题,反映了从热门到长尾的各种实体流行度,以及从年份到秒钟的时间动态。我们在这一基准上的评估凸显了完全可信的QA之间的差距。尽管大多数先进的LLMs在CRAG上的准确率仅达到<=34%,但以直接方式添加RAG仅将准确率提高到44%。行业领先的RAG解决方案只能回答63%的问题而无任何虚构信息。CRAG还显示在回答涉及具有更高动态性、较低流行度或较高复杂性的事实的问题时准确率低得多,这提示了未来的研究方向。CRAG基准奠定了KDD Cup 2024挑战赛的基础,在比赛开始的前50天就吸引了数千名参与者和提交。我们致力于保持CRAG,以服务于推进RAG解决方案和通用QA解决方案的研究社区。
大模型日报(6月11日 学术篇)http://arxiv.org/abs/2406.04744v1
03

使用Delta规则在序列长度上并行化线性Transformer

摘要:最近有人提出线性注意力的Transformer和状态空间模型作为Transformer的线性时间替代方案。然而,这些模型在需要上下文检索的任务上仍然表现不佳。本文描述了一个硬件高效的训练线性Transformer的算法,利用一种内存高效的表示方法来计算Householder矩阵的乘积。我们通过该算法在标准语言建模设置上扩展了DeltaNet模型,结果表明1.3B模型在100B token上的表现优于最近的线性时间基线。我们还尝试了两种混合模型,结合了DeltaNet层和滑动窗口注意力层或两个全局注意力层,结果表明这些混合模型表现优于强Transformer基线模型。
大模型日报(6月11日 学术篇)http://arxiv.org/abs/2406.06484v1
04

Transformer能推理到多远?局限性和归纳记事板

摘要:Transformer能否通过组合已建立的三段论来预测新的三段论?更一般的问题是,这种模型可以从头开始学习什么类型的目标?最近的研究表明,Transformer在表达能力方面是图灵完备的,但这并不涉及学习目标。本文提出了“分布局部性”的概念,以捕捉正规Transformer何时能够有效实现弱学习,其中局部性衡量需要的token数最少,除了token直方图以外,与目标相关的非平凡部分。实验证明,高局部性的分布不能有效学习。特别是,长链上不能组合三段论。此外,我们还展示了(i)对无知的记事本无助于突破局部性障碍,(ii)受过教育的记事本可以在每一步中打破局部性,(iii)“归纳式记事本”的概念既可以突破局部性,又可以改善超出分布的泛化能力,例如,在某些算术任务中将输入大小几乎提高一倍。
大模型日报(6月11日 学术篇)http://arxiv.org/abs/2406.06467v1
05

Tx-LLM:用于治疗的大语言模型

开发治疗药物是一个漫长而昂贵的过程,需要满足许多不同的标准,能够加速这一过程的人工智能模型无疑是宝贵的。然而,目前大多数人工智能方法只解决一个狭义定义的任务集,通常局限在特定领域内。为了弥补这一差距,我们引入了Tx-LLM,这是一个从PaLM-2微调的通用大语言模型(LLM),编码了有关多种治疗模式的知识。Tx-LLM使用包括针对药物发现管道各个阶段的66个任务在内的709个数据集进行训练。Tx-LLM同时处理各种化学或生物实体(小分子、蛋白质、核酸、细胞系、疾病)与自由文本,使其能够预测一系列相关属性,在43个任务中达到与最先进性能相媲美,并在22个任务中超过最先进性能。在这些任务中,Tx-LLM特别强大,并且在结合分子SMILES表示和文本(例如细胞系名称或疾病名称)的任务中表现优越,可能是由于预训练期间学到的上下文。我们观察到在涉及小分子和蛋白质任务的任务之间存在积极的迁移证据,并研究了模型大小、领域微调和提示策略对性能的影响。我们相信Tx-LLM代表了向编码生物化学知识的LLMs迈出的重要一步,并可能在未来在整个药物发现开发管道中扮演端对端工具的角色。
大模型日报(6月11日 学术篇)http://arxiv.org/abs/2406.06316v1
06

Turbo Sparse: 以最少激活参数实现LLM最优性能

利用激活稀疏性是显著加速大型语言模型(LLM)推理过程的有希望的方法,而不会降低性能。然而,激活稀疏性取决于激活函数,常用的SwiGLU和GeGLU等函数表现出有限的稀疏性。简单地用ReLU替换这些函数无法获得足够的稀疏性。此外,不充分的训练数据会进一步增加性能降低的风险。为了解决这些挑战,我们提出了一种新颖的dReLU函数,旨在改善LLM的激活稀疏性,同时配合高质量的训练数据混合比例,促进有效的稀疏化。此外,我们利用混合专家模型中的前馈网络(FFN)中的稀疏激活模式,进一步提升效率。通过将我们的神经元稀疏化方法应用于Mistral和Mixtral模型,每次推理迭代只激活25亿和43亿个参数,同时实现更强大的模型性能。评估结果表明,这种稀疏性实现了2-5倍的解码加速。值得注意的是,在手机上,我们的TurboSparse-Mixtral-47B实现了每秒11个token的推理速度。我们的模型可在url{https://huggingface.co/PowerInfer}找到。
大模型日报(6月11日 学术篇)http://arxiv.org/abs/2406.05955v1
07

VALL-E 2: 神经编解码语言模型是人类水平的零-shot文本到语音合成器

本文介绍了VALL-E 2,这是神经编解码语言模型的最新进展,标志着零-shot文本转语音合成(TTS)方面的里程碑,首次实现了人类水平。基于其前身VALL-E,新版本引入了两个重大增强:重复意识采样通过考虑解码历史中的标记重复来细化原始核采样过程。它不仅稳定了解码,而且规避了无限循环问题。编解码组建模型将编解码代码组织成群组,以有效缩短序列长度,不仅提高了推理速度,还解决了长序列建模的挑战。我们对LibriSpeech和VCTK数据集的实验显示,VALL-E 2在语音的鲁棒性、自然度和说话者相似性方面超越了先前的系统。它是第一个在这些基准上达到人类水平的系统。此外,VALL-E 2一直合成高质量语音,甚至对于传统上由于复杂性或重复短语而具有挑战性的句子。这项工作的优势可能有助于有价值的努力,比如为失语症患者或肌萎缩侧索硬化患者生成语音。VALL-E 2的演示将发布在https://aka.ms/valle2。
大模型日报(6月11日 学术篇)http://arxiv.org/abs/2406.05370v1
08

自回归模型战胜扩散:可扩展图像生成的大语言模型

我们介绍了LlamaGen,一种新的图像生成模型系列,将大型语言模型原始的“下一个Token预测”范式应用于视觉生成领域。这是对于传统自回归模型(如Llama)在视觉信号上不带归纳偏差是否可以在适当缩放的情况下实现最先进图像生成性能的肯定回答。我们重新审视了图像tokenizer的设计空间、图像生成模型的可扩展性特性以及它们的训练数据质量。这项探索的成果包括:(1)一个Downsample比率为16的图像tokenizer,在ImageNet基准测试上达到了0.94的rFID重建质量和97%的码本使用率。(2)一系列从111M到3.1B参数的类别条件图像生成模型,在ImageNet 256×256基准测试上达到了2.18的FID,优于流行的扩散模型如LDM、DiT。(3)一个文本条件图像生成模型,拥有775M参数,在LAION-COCO上进行两阶段训练,生成出高美学质量图像,展示出视觉质量和文本对齐的竞争性表现。(4)我们验证了LLM服务框架在优化图像生成模型推理速度方面的有效性,并实现了326%到414%的加速。我们发布所有模型和代码,以促进视觉生成和多模态基础模型的开源社区。
大模型日报(6月11日 学术篇)http://arxiv.org/abs/2406.06525v1
HuggingFace&Github

01

LeRobot 

lerobot 是一个开源的机器学习项目,为现实世界的机器人应用提供先进的模型、数据集和工具。它的目标是降低机器人技术的准入门槛,让更多人能够参与和贡献。lerobot 包含了一些最新的机器学习方法,如模仿学习和强化学习,这些方法已经被证明可以很好地应用于实际机器人系统。该项目还提供了一些预训练模型和人类收集的演示数据集,以及模拟环境,让用户无需组装机器人就可以开始使用。
大模型日报(6月11日 学术篇)https://github.com/huggingface/lerobot
02

Gollama

Gollama 是一款用于管理 Ollama 模型的工具,提供了一个功能丰富的文本用户界面(TUI),允许用户方便地列出、检查、删除、复制和推送 Ollama 模型,甚至可以将它们链接到 LM Studio。它支持根据各种标准对模型进行排序和筛选,并提供了一系列快捷键操作,让用户能够高效地管理自己的模型,特别是对于需要经常清理旧模型的场景非常有用。
https://github.com/sammcj/gollama
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/06/14781.html

Like (0)
Previous 2024-06-11 19:31
Next 2024-06-12 17:36

相关推荐

  • 大模型日报(9月12日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-12
    235
  • 大模型日报(8月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-30
    267
  • 大模型日报(7月23日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-23
    240
  • ​ChatGPT已经是天花板了?来看看AutoGPT

    ChatGPT已经是天花板了? 朋友,它其实才刚上路,不信你见识一下AutoGPT… 接下来打算写几篇关于AutoGPT实践的文章,在展开之前,我们大概了解一下,什么是…

    2023-04-14
    130
  • 大模型日报(9月11日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-11
    347
  • 大模型日报(6月28日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-28
    159
  • 实战Elicit, 让你惊艳的AI学术研究工作神器(一)

    Systematic Literature Review绝对是每个学术研究工作者的必经之路,顺利完成一篇SLR才能代表你真正了解该领域,成为该领域的专家,并且知道在该领域有哪些Ga…

    2023-05-30
    552
  • 大模型日报(7月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-29
    233
  • 大模型日报(4月16日 学术篇)

    欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。 欢迎大家一起交流! 论文 01 Megalodon:具有无限上下文长度的高效…

    2024-04-16
    191
  • 文章分享,来自数据科学大咖们的建议和见解

    今天收到导师发来的一篇文章,“The Data Science Handbook” by Carl Shan,Henry Wang,William Chen,Max Song。 几…

    论文 2022-07-17
    185