大模型日报(8月22日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(8月22日 学术篇)

论文

01

FocusLLM: 通过并行解码扩展LLM的上下文

加强LLM能够利用长上下文的有用信息对于许多下游应用至关重要。然而,传统Transformer架构要实现长上下文长度需要大量的训练和推断资源。本文提出了FocusLLM,一个旨在扩展任何仅解码器LLM的上下文长度的框架,使模型能够专注于来自非常长序列的相关信息。FocusLLM通过根据模型原始上下文长度将长文本输入分成块来处理,以减轻注意力分散问题。然后,它将局部上下文附加到每个块作为提示,基于一种新颖的并行解码机制从每个块中提取关键信息,并最终将提取的信息集成到局部上下文中。FocusLLM以出色的训练效率和通用性脱颖而出:用远低于以前方法的训练成本训练8K输入长度,FocusLLM在下游长上下文任务中表现出优秀性能,并在处理大量长文本(甚至达到400K令牌)时保持强大的语言建模能力。我们的代码可在 https://github.com/leezythu/FocusLLM 上找到。
大模型日报(8月22日 学术篇)
大模型日报(8月22日 学术篇)http://arxiv.org/abs/2408.11745v1
02

智能体提升语义代码搜索

代码搜索是许多程序员在解决问题时经常需要执行的关键任务。当前的方法学在处理包含一些模糊或需要与代码库相关的额外上下文的提示时往往无法准确执行。我们介绍了使用检索增强生成(RAG)智能体的方法,将信息注入用户提示,使其更好地输入到嵌入模型中。通过利用RAG,智能体可以使用来自GitHub存储库的相关细节增强用户查询,使其更具信息性和上下文对齐。此外,我们引入了一种多流集成方法,当与智能体工作流配对时,可以获得改进的检索准确性,我们将其部署在名为repo-rift.com 的应用程序上。在CodeSearchNet数据集上的实验结果表明,RepoRift显著优于现有方法,在Success@10 的成功率达到78.2%,在Success@1 的成功率达到34.6%。这项研究在语义代码搜索方面取得了实质性进展,突出了智能智能体LLM和RAG提升代码检索系统的潜力。
大模型日报(8月22日 学术篇)http://arxiv.org/abs/2408.11058v1
03

Mistral-SPLADE: 用于更好学习的稀疏检索的LLMs

学习稀疏检索器(LSR)已经发展成一种有效的检索策略,可以弥合传统基于关键字的稀疏检索器与基于嵌入式密集检索器之间的差距。在其核心,学习稀疏检索器试图从查询和/或文档中学习最重要的语义关键词扩展,以促进具有重叠关键词扩展的更好检索。我们提出使用仅解码器模型学习语义关键词扩展。我们认为,仅解码器模型在看到更高数量的数据后,更适合学习改进检索所需的关键词扩展。我们利用Mistral作为骨干来开发类似于SPLADE的学习稀疏检索器,并在经常用于训练文本嵌入模型的子集上对其进行训练。我们的实验支持假设,基于仅解码器大型语言模型(LLM)的稀疏检索模型超越了现有LSR系统的性能,包括SPLADE及其所有变体。基于LLM的模型(Echo-Mistral-SPLADE)现在被确定为BEIR文本检索基准测试的最先进学习稀疏检索模型。
大模型日报(8月22日 学术篇)http://arxiv.org/abs/2408.11119v1
04

LLM Pruning and Distillation in Practice:Minitron方法

我们提出了一个关于压缩Llama 3.1 8B和Mistral NeMo 12B模型到4B和8B参数的全面报告,使用剪枝和蒸馏。我们探讨了两种不同的剪枝策略:(1)深度剪枝和(2)联合隐藏/注意力/MLP(宽度)剪枝,并在LM评估工具中的常见基准上评估结果。然后将模型与NeMo Aligner对齐,并在定制的版本中进行测试。这种方法从Llama 3.1 8B生成了一个引人注目的4B模型,从Mistral NeMo 12B生成了一流的Mistral-NeMo-Minitron-8B(缩写为MN-Minitron-8B)模型。我们发现,即使没有访问原始数据,微调教师模型对蒸馏数据集也是有益的。我们在Hugging Face上以自由授权发布我们的基础模型权重。
大模型日报(8月22日 学术篇)http://arxiv.org/abs/2408.11796v1
HuggingFace&Github

01

TableBench

TableBench 是一个评估大型语言模型在表格数据处理能力的基准测试,涵盖18个领域和四个主要类别,专注于表格问答能力。它旨在缩小学术与实际应用之间的差距,并推出了基于 TableInstruct 训练的 TableLLM,性能与 GPT-3.5 相当。实验结果显示,尽管已有进展,现有模型仍需提升以满足真实世界的需求。
大模型日报(8月22日 学术篇)https://tablebench.github.io/
02

Phi-3.5-vision-instruct

Phi-3.5-vision 是一个轻量级的多模态模型,支持128K上下文长度,专注于高质量的文本和视觉数据。它适用于商业和研究用途,能够处理图像理解、光学字符识别、多图像比较等任务。模型经过监督微调和偏好优化,确保安全性和指令遵循。最新版本提升了多帧图像理解能力,并在多个基准测试中表现优异。
https://huggingface.co/microsoft/Phi-3.5-vision-instruct
03

LLM-TPU

本项目实现了在算能BM1684X芯片上部署各类开源生成式AI模型,以LLM为主。通过TPU-MLIR编译器将模型转换成bmodel,并采用C++代码将其部署到PCIE环境或者SoC环境。
大模型日报(8月22日 学术篇)https://github.com/sophgo/LLM-TPU
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/13446.html

Like (0)
Previous 2024-08-22 09:17
Next 2024-08-23 21:16

相关推荐

  • 与ChatGPT双向沟通,三步获得文献Idea!

    该文章分为两部分, 前一部分(1~4)为近期背景,即关于ChatGPT在研究和教育方面的事件; 后一部分(5)为ChatGPT在文献阅读的案例分享。 1. 近期背景: 1. 1如下…

    2023-03-10
    173
  • 大模型日报(7月13~14日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-14
    256
  • 大模型日报(6月11日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-11
    173
  • 开源分享 | Python可视化开源工具,一口气统统拿下!

    Python可视化开源工具,在这里一口气统统拿下~ 无论是做数据分析,软件系统还是为文章或报告提供有说服力的可视化图形,都是很棒的选择! PyViz是一站式可视化开源工具聚集地,可…

    2023-10-19
    162
  • 用ChatGPT薅羊毛,月入过十万?

    到周末了,让我们暂时抛开技术本身,闲聊一下关于ChatGPT不可回避话题:撸羊毛。 ChatGPT的出现,似乎意味着人类所面临的真正挑战终于到来了。作为新一代的聊天机器人程序,Ch…

    2023-03-26
    132
  • 大模型日报(9月6日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-06
    274
  • 大模型日报(5月23日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-23
    206
  • 大模型日报(7月15日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-15
    224
  • Github推荐 | 深度学习文献算法代码实现,堪称实验神器!

    感慨Github真的是“创新”的源泉~ 当你阅读文献时,有个想法,想立刻尝试一下,但一想从头搭建环境、算法实现、测试调优…退缩之意会不会立马萌生? 这里有个很棒的库,可…

    2023-10-11
    157
  • 大模型日报(7月5日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-07-05
    243