大模型日报(4月19日 学术篇)

欢迎观看大模型日报站(活动录屏复盘聚集地)

大模型日报(4月19日 学术篇)

论文

01

Reka Core Flash, Edge:一系列强大的多模式语言模型

我们介绍了Reka Core,Flash和Edge,这是Reka从头开始训练的一系列强大的多模态语言模型。Reka模型能够处理和推理文本、图像、视频和音频输入。这份技术报告讨论了训练这些模型的细节,并提供了全面的评估结果。我们展示了Reka Edge和Reka Flash不仅是最先进的,而且胜过许多更大的模型,在各自的计算类别中提供了超额价值。与此同时,我们最有能力和最大的模型Reka Core,在自动评估和盲人评估方面接近最佳前沿模型。在图像问答基准测试(例如MMMU,VQAv2)上,Core表现出色,与GPT4-V竞争。同时,在多模态聊天中,Core在盲目的第三方人为评估设置中排名第二,胜过其他模型,如Claude 3 Opus。在文本基准测试中,Core不仅在一些既定基准测试中(例如MMLU,GSM8K)与其他前沿模型竞争,而且在人为评估上胜过GPT4-0613。在视频问答(感知测试)中,Core超过了Gemini Ultra。这些模型已经在http://chat.reka.ai上投入生产。您还可以在http://showcase.reka.ai找到一些非挑选的定性示例展示。
大模型日报(4月19日 学术篇)http://arxiv.org/abs/2404.12387v1
02

通过想象、搜索和批评实现LLM自我改进

尽管大语言模型(LLMs)在各种任务上显示出了令人印象深刻的能力,但它们仍然在涉及复杂推理和规划的情况下存在困难。最近的工作提出了先进的提示技术,并强调了通过高质量数据进行微调来增强LLMs的推理能力的必要性。然而,这些方法本质上受到数据可用性和质量的限制。因此,在这种情况下,自我纠正和自我学习涌现为可行的解决方案,采用策略使LLMs能够改善其输出并从自我评估的奖励中学习。然而,LLMs在自我改进其响应方面的有效性,特别是在复杂的推理和规划任务中,仍然存疑。在本文中,我们介绍AlphaLLM用于LLMs的自我改进,它将蒙特卡洛树搜索(MCTS)与LLMs相结合,建立了一个自我改进的循环,从而增强了LLMs的能力,而无需额外的注释。受AlphaGo成功启发,AlphaLLM解决了将MCTS与LLM结合用于自我改进的独特挑战,包括数据稀缺性,语言任务搜索空间的广阔性以及语言任务中反馈的主观性质。AlphaLLM包括提示综合组件,专为语言任务量身定制的高效MCTS方法,以及三个评论模型,用于提供精确的反馈。我们在数学推理任务中的实验结果表明,AlphaLLM显着增强了LLMs的性能,而无需额外的注释,展示了LLMs自我改进的潜力。
大模型日报(4月19日 学术篇)http://arxiv.org/abs/2404.12253v1
03

MLCommons AI安全基准测试v0.5

本文介绍了AI Safety Benchmark v0.5,由MLCommons AI Safety Working Group创建。该基准旨在评估使用chat-tuned语言模型的AI系统的安全风险。我们引入了一种原则性方法来指定和构建基准,v0.5仅涵盖一个用例(成年人与通用助手用英语对话),以及有限的人物设定(即典型用户、恶意用户和易受攻击用户)。我们创建了一个包含13种危险类别的新分类法,其中v0.5基准中有7种进行测试。我们计划在2024年底发布AI Safety Benchmark版本1.0。v1.0基准将为AI系统的安全提供有意义的洞察。然而,v0.5基准不应用于评估AI系统的安全性。我们努力充分记录了v0.5的限制、缺陷和挑战。这个发布的AI Safety Benchmark v0.5包括(1)一种原则性方法,用于指定和构建基准,包括用例、被测试系统类型(SUTs)、语言和上下文、人物设定、测试以及测试项目;(2)一个包含13种危险类别的分类法,带有定义和子类别;(3)对七种危险类别的测试,每种包含一组独特的测试项目,即提示。总共有43,090个测试项目,我们使用模板创建;(4)一个对AI系统进行基准测试的评分系统;(5)一个名为ModelBench的开放平台和可下载工具,可用于评估AI系统在基准上的安全性;(6)一个基准性能评估报告示例,对超过一打公开可用的chat-tuned语言模型的性能进行基准测试;(7)基准测试的测试规范。
大模型日报(4月19日 学术篇)http://arxiv.org/abs/2404.12241v1
04
4

OpenBezoar: 在混合指令数据上训练的便宜小巧的开放模型

摘要:对于各种不同下游任务进行指令微调预训练LLMs已经取得了显著成功,引起了学术界和实践者的兴趣。为了确保这些微调的LLMs符合人类偏好,涌现了RLHF和DPO等技术。同时,对于模型的参数数量越来越感兴趣。在这项工作中,我们以OpenLLaMA 3Bv2作为基础模型,描述了用于微调OpenBezoar系列模型的配方。在这个配方中:我们首先利用Falcon-40B模型的开放和商业非限制性的指令微调变体,在三种方案下生成合成指令微调数据:LaMini-LM、WizardLM/Evol-Instruct(使用databricks-dolly-15k作为种子数据集)和Orca(使用Flan Collection作为种子数据集),然后使用GPT-4作为人类代理来过滤这些生成。接着,我们按顺序采用基于QLoRA的成本效益型有监督微调每种方案。最终生成的检查点进一步通过对HH-RLHF数据集的子集进行微调以最小化分布偏移,然后使用DPO损失获得最终检查点。评估是通过LM Eval Harness任务/指标以及在MT-Bench上使用”LLM-as-a-judge”框架进行的,发现最终检查点”OpenBezoar-HH-RLHF-DPO”在3B参数规模上的性能优于许多模型,甚至在Huggingface Open LLM Leaderboard的一个类别中超过了顶级模型。我们在HuggingFace上发布了”OpenBezoar-SFT”、”OpenBezoar-HH-RLHF-SFT”、”OpenBezoar-HH-RLHF-DPO”检查点,以及我们生成的数据集和代码库。
大模型日报(4月19日 学术篇)http://arxiv.org/abs/2404.12195v1
05

多模型中的顺序组合泛化

大规模多模型的崛起为生成建模和推理的突破性进展铺平了道路,在各种复杂任务中解锁了变革性的应用。然而,一个仍然存在的紧迫问题是它们对更强泛化形式的真实能力,在多模态环境中这一点尚未得到充分探讨。我们的研究旨在通过使用CompAct(Compositional Activities)来检验顺序组合泛化,该数据集在丰富的以自我为中心的厨房活动视频背景下精心构建。我们的数据集中的每个实例都用原始视频素材、自然发生的声音和众包逐步描述的组合表示。更重要的是,我们的设置确保个体概念在训练集和评估集中一贯分布,而它们的组合在评估集中是新颖的。我们对几种单模和多模型进行了全面评估。我们的发现显示,双模和三模型比仅文本的对应部分表现出明显优势。这凸显了多模性的重要性,同时为该领域的未来研究规划了发展轨迹。
大模型日报(4月19日 学术篇)http://arxiv.org/abs/2404.12013v1
06

TriForce:使用分层投机解码无损加速长序列生成

随着大型语言模型(LLMs)在最近广泛用于生成长内容,对于高效的长序列推理支持需求不断涌现。然而,关键-值(KV)缓存作为用于避免重复计算的存储,随着序列长度的增长呈线性增长,已经成为一个关键瓶颈。考虑到LLMs的自回归特性,每生成一个token就要加载整个KV缓存,导致计算核心的低利用率和高延迟。我们介绍了TriForce,一个可扩展到长序列生成的分层推理解码系统。TriForce不仅为Llama2-7B-128K实现了令人印象深刻的加速,还展示了处理更长上下文的可伸缩性。
大模型日报(4月19日 学术篇)http://arxiv.org/abs/2404.11912v1

HuggingFace&Github

01

Welcome Llama 3

Llama 3 是 Meta 公司推出的开放获取 Llama 家族的下一个迭代版本,提供了两种尺寸:8B 用于在消费级 GPU 上高效部署和开发,70B 用于大规模 AI 原生应用程序。这两种尺寸都有基本和指令调整的变体,并且还有一个经过微调的 Llama Guard 2(安全微调)版本。
https://huggingface.co/blog/llama3
02

UniChat

UniChat 是一个基于 Unity.Sentis 和文本向量嵌入技术的工具,它使得在离线模式下能够基于向量数据库来搜索文本内容。此外,如果用户使用在线模式,UniChat 还包含一个基于 LangChain 的链式工具包,以便在游戏中快速嵌入LLM和Agent。 UniChat 的目标是设计一个能够不偏离开发者想法,同时又比较灵活的对话系统,适用于游戏开发。

大模型日报(4月19日 学术篇)https://github.com/AkiKurisu/UniChat

03

TriForce

TriForce 是一种分层的推测解码系统,可扩展到长序列生成。该方法利用原始模型权重和动态稀疏的键-值(KV)缓存,通过检索作为草案模型,这种模型作为层次结构中的中间层,并通过较小的模型进一步推测,以减少其起草延迟。TriForce 不仅为 Llama2-7B-128K 实现了令人印象深刻的加速,而且在处理更长的上下文方面也展现了可扩展性。
大模型日报(4月19日 学术篇)https://github.com/Infini-AI-Lab/TriForce

大模型日报(4月19日 学术篇)

大模型日报16

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/15961.html

Like (0)
Previous 2024-04-19 16:11
Next 2024-04-19 23:53

相关推荐