大模型日报(8月24~25日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(8月24~25日 学术篇)

学习

01

长上下文嵌入模型中的后期分块

“Late Chunking” 技术是针对长文本上下文嵌入模型的性能优化方法。该方法通过在模型处理过程中的后期阶段进行文本分割,将长文本划分为小片段,以此降低内存和计算资源的消耗。在实验中,该技术展现了在不牺牲模型准确性的情况下,显著提升处理长文本的效率。特别是在基于 Transformer 架构的模型中,”Late Chunking” 通过减少序列长度带来的计算复杂度,有效地优化了模型的运行时间和内存占用。
大模型日报(8月24~25日 学术篇)https://jina.ai/news/late-chunking-in-long-context-embedding-models/?nocache=1
02

我们如何构建 Townie——一款生成全栈应用的应用程序

Townie 是一个利用大型语言模型(LLM)如 Claude 3.5 Sonnet 构建的应用程序,能够通过对话生成全栈应用。它的核心在于将 LLM 的代码生成能力与 Val Town 平台的即时部署特性相结合,使得用户无需深入编程知识也能创建和部署应用程序。技术细节包括使用 Vercel 的 AI SDK 进行模型切换、通过 LLM 生成 Typescript 代码、解决数据库持久性问题(如使用 Blob Storage 替代 SQLite)、以及实现前后端代码分离。此外,Posma 还通过 “Make Real” 功能展示了如何将绘图转换为具有后端的 HTML,并通过 E-VALL-UATOR 工具评估 LLM 生成代码的质量。为了降低成本和提高效率,他采取了减少上下文窗口大小、生成代码差异(diffs)而非完整代码块等措施。
大模型日报(8月24~25日 学术篇)https://blog.val.town/blog/codegen/
03

长上下文 RAG 表现的LLM性能

本文深入探讨了长上下文对于基于大型语言模型(LLMs)的检索增强生成(RAG)应用性能的影响。实验结果显示,长上下文可以提供更多相关文档,有助于提升 RAG 系统的答案质量。然而,性能并非随着上下文长度的增加而线性提升,许多模型在超过特定长度后表现出下降趋势。例如,Llama-3.1-405b 模型在超过 32k tokens 后性能下降,而 GPT-4-0125-preview 模型在 64k tokens 后出现相同情况。不同模型在长上下文下的失败模式各异,包括生成重复内容、随机内容、无法遵循指令或提供错误答案等。特别是,Claude-3-sonnet 模型在长上下文下倾向于拒绝回答,理由包括版权关切。通过对 13 款流行的开源和商业 LLMs 进行超过 2000 次实验,文章揭示了长上下文 RAG 性能的复杂性,并强调了在实际应用中需要考虑模型选择和上下文长度的重要性。
大模型日报(8月24~25日 学术篇)https://www.databricks.com/blog/long-context-rag-performance-llms
04

EP8对话淦创、周衔:RoboGen如何通过生成模型和可微分模拟大规模合成机器人示教数据

RoboGen 是一种利用生成模型和可微分模拟技术的系统,旨在大规模合成机器人示教数据。它通过任务提议、场景生成和训练监督生成来产生高质量的数据集,支持机器人技能学习。核心技术包括:可微分物理引擎,它允许在模拟环境中进行梯度计算,从而实现更精确的环境反馈和动作优化。这种方法有助于缩小模拟与现实环境之间的差异(Sim2Real Gap),并提供丰富的数据以提升机器人在复杂任务中的泛化能力。
大模型日报(8月24~25日 学术篇)https://mp.weixin.qq.com/s/MaJA3vaf1MH6fyLGFpdcGQ
05

JuiceFS 在多云架构中加速大模型推理

文章首先阐述了大模型推理服务的典型架构特点,如跨多个云服务或数据中心,以及数据一致性和管理便捷性的重要性。在推理环节,JuiceFS 企业版通过分布式缓存提高了模型数据的读取速度,特别是在高并发场景下。例如,单机单卡加载 Stable Diffusion 模型时,从缓存集群读取数据的延迟可低至 0.5ms,性能提升了将近 40 倍。
在多云、混合云架构中,JuiceFS 的镜像文件系统功能允许数据从一个地区复制到多个地区,实现数据的快速分发。数据读取时,如果镜像区域的数据未到达,系统会自动回退到源区域存储。
对于海量存量数据的读取,JuiceFS 企业版的「导入对象存储元数据」功能使得企业可以高效地完成数据导入,并通过分布式缓存优化数据访问速度。
在异构环境中,JuiceFS 通过「缓存节点权重」的概念,允许用户根据实际环境调整每个 GPU 节点的权重,以优化存储和计算性能。
大模型日报(8月24~25日 学术篇)https://mp.weixin.qq.com/s/j6AlSqKxKInAKeBfADJdOA
06

Stream-K 和 Lean-Attention

Stream-K 和 Lean-Attention 是两种旨在提高 Transformer 模型效率的注意力机制。Stream-K 机制通过流式处理序列数据,能够有效处理长序列,减少内存占用,实现快速响应。Lean-Attention 则通过精简不必要的计算,降低了模型的复杂度,提升了计算效率。两种机制都在不牺牲性能的前提下,显著提高了模型处理速度和内存使用效率,具有广泛的应用前景,尤其在处理大规模数据和资源受限的环境中。
大模型日报(8月24~25日 学术篇)https://zhuanlan.zhihu.com/p/716352563?utm_psn=1811049576632832001
07

大模型的基本功

这篇文章探讨了在大模型开发中一些常见但基础的技能,这些技能虽然可能不直接提升模型性能,但能显著提高开发效率。作者首先提出了一些大模型的核心技术,如Transformer、Flash Attention、Megatron等,但强调这些技术对大多数实际工作并非必要理解,而更实用的技能是如何处理和转换不同模型框架。
基本技能:
  1. 模型转换脚本(trans_XX_to_llama.py):在开源社区中,LLama的网络结构占据主导地位。作者建议编写脚本,以便使用modeling_llama.py加载其他开源模型,如Qwen、Baichuan等。这不仅能帮助理解不同模型的特性,还能通过对比论文找到模型设计上的独特之处。
  2. 自定义模型文件(modeling_XX.py):建议创建属于自己的modeling_XX.py文件,将各家实现的优点整合到一起。这样在遇到新的开源模型时,可以通过简单的转换脚本实现快速微调,而无需修改训练代码。作者还建议添加一些调试函数,如计算隐藏层的余弦距离、预测下一token的最大可能性等,以帮助日常开发。
  3. 多模型推理(multi_infer.py):传统的model.generate()方法在多卡并行时效率较低,作者建议编写一个推理类,通过多进程或其他方式实现更快的推理速度。还可以通过定制modeling_XX.py文件中的设备管理函数,提升代码的优雅性和灵活性。
  4. 通道损失(Channel Loss):在进行领域模型的后预训练(post-pretrain)时,传统的损失曲线提供的信息有限。作者建议对数据源进行分类,并在训练过程中绘制每个通道的损失曲线,以便更好地分析和解决问题。
进阶技能:
  • 进一步研究Megatron和DeepSpeed等框架下的模型转换和并行推理。
  • 在多机环境下实现并行推理,并学习更快的推理框架,如vllm。
  • 在封装较深的训练方式中,如何有效地引入和监控Channel Loss。
https://zhuanlan.zhihu.com/p/716344766?utm_psn=1811047666580320257
HuggingFace&Github

01

mlx-llm

这个项目是一个基于Apple MLX的大型语言模型(LLM)应用程序和工具。它支持在Apple Silicon上实时运行LLM。该项目提供了一个简单的API来创建和使用各种预训练的LLM模型,如LLaMA、Phi3、Mistral和Gemma等。此外,它还支持模型量化和嵌入提取等功能。
大模型日报(8月24~25日 学术篇)https://github.com/riccardomusmeci/mlx-llm
02

MultiPL-E

MultiPL-E是一个用于评估大型语言模型在代码生成任务上的性能的多编程语言基准测试系统。它将两个流行的Python基准测试(HumanEval和MBPP)翻译成18种其他编程语言,以评估模型在不同语言上的性能。
https://github.com/nuprl/MultiPL-E
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/08/13398.html

Like (0)
Previous 2024-08-23 21:16
Next 2024-08-26 18:08

相关推荐

  • Hugging GPT 开启高级人工智能的AI入口?浙大和微软联手王炸?

    Hugging GPT 网上一时间的沸沸扬扬,比如AI神器入口,统领所有AI模型,多模态AI模型王炸,正式开启高级人工智能之路… 那么,它到底是什么,真的有那么神奇吗?…

    2023-04-11
    157
  • 大模型日报(10月1-7日国庆特刊 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-10-08
    299
  • 实战:ChatGPT十二般武艺,Proposal申报国家基金

    用ChatGPT哪十二般武艺,可以如此了得,竟然可以尝试申报国家基金? 那么看下去,希望值得~ 十二般武艺 (抱歉没凑齐十八般…) 一. 假定身份,描述需求 二. 提交…

    2023-03-30
    206
  • Claude突然被封?解封看这一篇就够了!

    大家有没有碰到这样的情况,半小时前还用得好好的,突然间Slack里Claude APP没有了? 这几天正在疯狂地码文章,没有Claude协助,效率肯定要指数级下降啊! 于是,我火急…

    2023-04-27
    235
  • 大模型日报(6月25日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-25
    224
  • ​ChatGPT已经是天花板了?来看看AutoGPT

    ChatGPT已经是天花板了? 朋友,它其实才刚上路,不信你见识一下AutoGPT… 接下来打算写几篇关于AutoGPT实践的文章,在展开之前,我们大概了解一下,什么是…

    2023-04-14
    130
  • 大模型日报(8月16日 学术篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-16
    206
  • 大模型日报(8月15日 学术篇)

    特别活动! 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.f…

    2024-08-15
    252
  • 大模型日报(9月26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-09-26
    212
  • 大模型日报(5月23日 学术篇)

    特别活动 我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流!…

    2024-05-23
    206