大模型日报(4月26日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(4月26日 学术篇)

论文

01

逐个列出:一种面向多模式大语言模型的新数据源和学习范式

摘要:Set-of-Mark(SoM)提示释放了GPT-4V的视觉基准能力,使模型能够将视觉对象与插入在图像上的标记相关联。这些标记带有字母数字,并可通过文本标记进行索引以便轻松引用。尽管GPT-4V表现出色,我们发现其他多模态大语言模型(MLLMs)难以理解这些视觉标记。为促进开源模型学习SoM提示,我们提出了一个新的学习范式:“逐个列出项目”,要求模型按照字母数字顺序枚举并描述放置在图像上的所有视觉标记。通过将我们创作的数据集与其他视觉指令微调数据集集成,我们能够为现有MLLMs提供SoM提示功能。此外,我们在五个MLLM基准上评估了我们微调过的SoM模型。我们发现,即使在相对较小的规模(10k-30k带标记的图像)中,该新数据集也显著增强了MLLMs的视觉推理能力,并减少了视觉幻觉。令人惊讶的是,即使在推理过程中省略了输入图像中的视觉标记,这些改进依然存在。这表明“逐个列出项目”有望作为训练MLLMs的新范式,通过在训练阶段使用视觉标记来加强对象-文本对齐。最后,我们通过调查训练模型来分析SoM的工作机制。我们的代码和数据可在https://github.com/zzxslp/SoM-LLaVA获取。
大模型日报(4月26日 学术篇)http://arxiv.org/abs/2404.16375v1
02

Tele-FLM:大语言模型技术报告

大语言模型(LLMs)展示了在语言理解和生成方面的深厚能力,促进了各种应用的发展。然而,关于如何有效地将LLMs扩展到超过50亿个参数的详细开源方法仍然相对缺乏,且试错成本和计算资源很高。在这份报告中,我们介绍了Tele-FLM(也称为FLM-2),一个拥有52B个参数的开源多语言大型语言模型,具有稳定高效的预训练范式和增强的事实判断能力。Tele-FLM展示了出色的多语言建模能力,通过对文本语料库的BPB进行测量。在英文和中文基础模型评估中,它与使用更大的预训练FLOPs的强大开源模型(如Llama2-70B和DeepSeek-67B)相媲美。除了模型权重外,我们还分享了核心设计、工程实践和训练细节,希望能造福学术界和工业界。
大模型日报(4月26日 学术篇)http://arxiv.org/abs/2404.16645v1
03

让你的LLM充分利用上下文

摘要:当前许多大型语言模型(LLMs)虽然能够处理长输入,但仍然难以充分利用长上下文中的信息,这被称为中间信息丢失挑战。我们假设这是由于长上下文训练中缺乏明确监督导致的,未能强调长上下文中任何位置都可能包含关键信息。基于这一直觉,我们提出了信息密集型(IN2)训练,这是一个纯数据驱动的解决方案,旨在克服中间信息丢失问题。具体来说,IN2训练利用了一个合成的长上下文问答数据集,其中答案需要对合成长上下文(4K-32K tokens)中的一个短片段(~128 tokens)有精细的信息意识,还需要整合和推理来自两个或多个短片段的信息。通过将这种信息密集训练应用于Mistral-7B,我们提出了FILM-7B(填充中部)。为了全面评估FILM-7B利用长上下文的能力,我们设计了三个探测任务,涵盖不同上下文风格(文档、代码和结构化数据上下文)和信息检索模式(向前、向后和双向检索)。探测结果表明,FILM-7B能够稳健地从其32K上下文窗口中的不同位置检索信息。除了这些探测任务,FILM-7B在实际长上下文任务中显著提高了性能(例如,在NarrativeQA上,F1分数从23.5提高到26.9),同时在短上下文任务上保持了可比的表现(例如,在MMLU上,准确度从59.3下降到59.2)。GitHub链接:https://github.com/microsoft/FILM。
大模型日报(4月26日 学术篇)http://arxiv.org/abs/2404.16811v1
04
4

对大语言模型在事实知识回忆上的整体评估

大型语言模型(LLMs)在各种自然语言处理任务中表现出色,并被广泛应用于多个领域。评估它们生成结果的真实性至关重要,因为虚构信息仍然是一个挑战性问题。本研究关注评估LLMs召回预训练学习的事实知识的能力,以及影响这种能力的因素。我们构建了FACT-BENCH,一个包含20个领域、134种属性类型、3种答案类型和不同知识流行水平的代表性基准。我们评估了来自10个模型系列的31个模型,并全面评估了它们的优势和劣势。我们发现指令微调会降低知识召回能力,较大的模型在所有模型系列中表现更好。另外,我们对于上下文示例的研究发现,对于大型模型来说,反事实演示会显著降低事实知识召回能力。最后,我们对LLaMA-7B在已知和未知知识不同设置下进行微调。微调已知知识是有益的,一贯好于对未知和混合知识进行微调。我们将公开我们的基准测试。
大模型日报(4月26日 学术篇)http://arxiv.org/abs/2404.16164v1
05

层间跳跃:启用提前退出推理和自我推测解码

我们提出了LayerSkip,一个端到端的解决方案,用于加快大型语言模型(LLMs)推理的速度。首先,在训练过程中,我们应用层退出,对于较早的层采用较低的退出率,而对于较晚的层采用较高的退出率,并且使用早期退出损失,其中所有Transformer层共享相同的退出。其次,在推理过程中,我们展示了这种训练配方增加了早期层的退出准确性,而不需要向模型添加任何辅助层或模块。第三,我们提出了一种新颖的自我推测解码解决方案,在此解决方案中,我们在早期层退出,然后使用模型的剩余层进行验证和修正。我们提出的自我推测解码方法具有比其他推测解码方法更小的内存占用,并且受益于草稿和验证阶段的共享计算和激活。我们在不同类型的训练数据上对不同大小的Llama模型进行实验:从头开始的预训练、持续的预训练、在特定数据领域微调,以及在特定任务上微调。我们实现了我们的推理解决方案,并展示了在CNN/DM文档的摘要中的最高2.16倍加速,编码中的1.82倍加速,以及TOPv2语义解析任务中的2.0倍加速。
大模型日报(4月26日 学术篇)http://arxiv.org/abs/2404.16710v1
06

指导至关重要,面向特定任务微调的一种简单而有效的任务选择方法

摘要:指导微调已经显示出在各种任务中不仅可以增强零-shot泛化能力,而且还可以提高特定任务的性能。在特定任务的指导微调中,关键因素是选择相关任务以提供有意义的监督,从而增强效率并防止来自无关任务的性能下降。我们的研究表明,仅利用指导信息就能够确定适用于指导微调的相关任务。与传统方法相比,这种方法明显更简单,无需复杂地测量任务之间的可传递性或为目标任务创建数据样本。此外,通过额外学习元数据集的独特指导模板风格,我们观察到任务选择准确性的提高,有助于增强整体性能。实验结果表明,在仅根据指导进行的一小组任务的训练下,在P3、Big-Bench、NIV2和Big-Bench Hard等基准测试中显着提高了性能。值得注意的是,这些改进超过了先前任务选择方法取得的成就,突显了我们方法的有效性。
大模型日报(4月26日 学术篇)http://arxiv.org/abs/2404.16418v1
信号

01

语言模型合成CRISPR蛋白质用于基因编辑

蛋白质模型等前置技术都成熟了,这个应用的想象力空间很大
https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1
02

Llama 3 长上下文很容易

llama2 需要复杂的持续预训练才能做好大海捞针,llama3 改改rope theta就能提升不少上下文长度,然后预训练千万级token又能继续提升。这跟 llam
大模型日报(4月26日 学术篇)
03

Yi Tay推特小号“嘲讽”Phi-3:看都不看

大模型日报(4月26日 学术篇)大模型日报(4月26日 学术篇)

大模型日报(4月26日 学术篇)

https://twitter.com/agihippo/status/1782684071648461164
04

Meta Paper: Enabling Early Exit of LLM

我们之前应该有讨论过相关问题:Ideally 大模型应该有一个及时退出的机制 1) 提升inference效率, 2) 简单问题少想想,困难问题多想想
Sequence can Secretly Tell You What to Discard
https://arxiv.org/pdf/2404.15949
(i) the similarity between adjacent tokens’ query vectors is remarkably high, and (ii) current query’s attention calculation can rely solely on the attention information of a small portion of the preceding queries. Based on these observations, we propose CORM, a KV cache eviction policy that dynamically retains important key-value pairs for inference without finetuning the model.
大模型日报(4月26日 学术篇)https://arxiv.org/pdf/2404.16710

HuggingFace&Github

01

WrenAI

Wren AI 旨在重新构想企业如何利用大型语言模型(LLM)来交互和利用内部数据。它提供了一个安全、开源的平台,通过丰富LLM的知识库、减少幻觉、建立自学反馈机制等方式,帮助企业更好地理解和利用自身的数据资产,从而提升数据分析和洞察的能力。
大模型日报(4月26日 学术篇)https://github.com/Canner/WrenAI
02

LLM Scraper

LM Scraper 是一个基于 TypeScript 的工具,利用大语言模型技术将任何网页转换为结构化数据。它支持多种 LLM 模型,如 OpenAI 和 Groq,通过定义 Zod 模式实现类型安全的数据抽取。LLM Scraper 底层基于 Playwright 实现网页抓取和渲染,支持流式传输多页面内容,可以从 HTML、Markdown、纯文本或截图等多种输入模式中提取所需信息。
大模型日报(4月26日 学术篇)https://github.com/mishushakov/llm-scraper
03

OpenCRISPR

OpenCRISPR 是一种由人工智能开发的创新性基因编辑工具。它包含了一种独特的 Cas9 样蛋白和引导 RNA,具有与现有 Cas9 不同的分子结构和功能特性。通过使用先进的语言模型技术,Profluent公司能够设计出这种全新的基因编辑系统,与普通Cas9相比拥有更强的生物活性和应用潜力。
https://github.com/Profluent-AI/OpenCRISPR

大模型日报(4月26日 学术篇)

大模型日报16

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/15768.html

Like (0)
Previous 2024-04-25 22:18
Next 2024-04-26 23:24

相关推荐