大模型日报(4月18日 学术篇)

欢迎观看大模型日报站(活动录屏复盘聚集地)

大模型日报(4月18日 学术篇)

学习

01

DSPy 入门: 再见提示,你好编程

文章介绍了DSPy框架,一个基于Python的声明式自我改进语言程序设计框架,旨在通过编程而非简单的提示来构建基于语言模型的应用。DSPy消除了因组件变更而重新进行繁琐的提示工程的需求。它通过自动优化语言模型的调用,使得应用更加健壮。DSPy引入了“签名”概念来抽象化提示和微调,通过模块化设计来替代传统的提示技术,并通过编译器和提词器实现流水线的自动优化。此框架允许用户集中精力于定义程序逻辑和验证,而非频繁调整提示。
大模型日报(4月18日 学术篇)https://zhuanlan.zhihu.com/p/685171231?utm_psn=1764326921197146112
02

Infini-mini-transformer: 对谷歌最新提出的Infini-transformer模型进行代码复现(含小规模的预训练过程)

文章介绍了对谷歌提出的Infini-transformer模型的复现和训练细节。该模型采用分片方法处理输入,利用记忆力机制在各个切片之间传递信息,模拟人类记忆过程。作者对模型的主要组成部分进行了技术解读,包括记忆检索输出、记忆更新,并通过门机制在当前切片的输出中融合注意力和记忆输出。此外,文中也提到了训练中的挑战,如训练速度慢、显存利用率低等问题,并考虑未来使用flash_attention优化训练过程。
大模型日报(4月18日 学术篇)https://zhuanlan.zhihu.com/p/692848185
03

一文看懂Score-based模型的基本原理(一)

文章详细介绍了Score-based模型的核心概念和技术细节,突出其在生成模型领域的应用。模型的目的是拟合数据分布并从中采样生成新的图像。通过定义概率密度函数和最大化数据的对数似然,文章讨论了如何优化模型参数。特别强调了Score function的作用,以及如何通过Score-matching和Langevin Dynamics Sampling来预测和生成数据点。此外,还探讨了噪声条件下的Score预测和退化分布的问题,提出了使用多强度噪音进行模型训练的策略,以提高模型的预测精度和适应性。
大模型日报(4月18日 学术篇)https://zhuanlan.zhihu.com/p/692665153?utm_psn=1763843449424576512
04
4

不受窗口长度限制的长文本生成全新思路:利用模型参数储存上文信息

研究提出一种全新方法以支持无限长文本生成,主要通过将上文信息储存在模型参数中,而非传统的KV cache。此方法使用一个临时的Lora模块(Temp-Lora)来存储历史信息,该模块在推理过程中不断通过模型生成的token进行训练,并在推理结束后被丢弃,避免对模型参数造成永久性影响。此框架显著降低了计算开销,无论上下文长度如何,生成一个token所需的浮点运算数和推理延时保持不变。此方法在小说补全和翻译任务中均显示出显著效果,大幅度提升了模型的性能。
大模型日报(4月18日 学术篇)https://zhuanlan.zhihu.com/p/679713147?utm_psn=1763631537822765056
05

基于unsloth框架完成7B规模模型SFT微调训练(10GB显存占用)

本文探讨了使用unsloth框架在单机单卡环境下完成7B规模模型的SFT微调训练。利用unsloth框架和Triton库优化,实现了在RTX A6000 48GB显卡上的高效训练,峰值显存仅为10.342 GB。文章详细描述了模型的设置,包括最大token长度8192、使用4bit量化减少显存占用等技术细节。此外,还介绍了如何通过设置dtype和其他参数来适应不同的硬件架构。整个微调过程展示了在保持性能的同时,如何有效控制资源使用。
https://zhuanlan.zhihu.com/p/689918127?utm_psn=1763630933532807168
06

深度生成模型课程

这是一个关于深度生成模型的开放课程网站,内容涵盖了生成模型的概率基础、学习算法以及流行的模型系列,如变分自编码器(VAEs)、生成对抗网络(GANs)、自回归模型、规范化流和扩散模型等。课程还介绍了这些模型在计算机视觉、自然语言处理和生物医药等领域的应用,并探讨了它们与强化学习领域的联系。
https://kuleshov-group.github.io/dgm-website/
07

接受LLM非确定性

本文探讨了大型语言模型(LLM)中的非确定性问题,并试图从技术角度解释其原因。非确定性的主要来源之一是采样过程的随机性,尽管通过种子(seeding)可以实现“相同输入,相同输出”。然而,作者在使用具有混合专家(MoE)架构的GPT-4时发现,即使进行了种子设置,结果仍然显示出非确定性。这是因为在批处理推断中,输入序列的路由依赖于其在批次中的位置及其他序列,因此只有在相似的批次中才能体现出确定性。此外,硬件层面的非确定性也是一个问题,如GPU在执行浮点运算时因性能优化而无法保证运算的顺序一致性。最后,作者指出语言本身的高度歧义性和复杂性也为LLM的输出增加了随机性。尽管如此,适当的模型和参数调整可以在一定程度上减少这种非确定性。
大模型日报(4月18日 学术篇)https://barryzhang.substack.com/p/making-peace-with-llm-non-determinism

HuggingFace&Github

01

Dllama 

Dllama 是一个简单易用的库,用于直接从 Delphi 进行LLM推理。它可以将格式化的 GGUF 加载LLMs到 CPU 或 GPU 内存中,使用CUDA后端进行加速。
大模型日报(4月18日 学术篇)
https://github.com/tinyBigGAMES/Dllama
02

CSGHub

CSGHub是一个开源、可信的大模型资产管理平台,可帮助用户治理LLM和LLM应用生命周期中涉及到的资产(数据集、模型文件、代码等)。CSGHub提供类似私有化的Huggingface功能,以类似OpenStack Glance管理虚拟机镜像、Harbor管理容器镜像以及Sonatype Nexus管理制品的方式,实现对LLM资产的管理。

大模型日报(4月18日 学术篇)https://github.com/OpenCSGs/CSGHub

03

Risu

RisuAI,是一款跨平台的 AI 聊天软件/Web 应用程序。让用户制作自己的故事,用于实现 AI 角色扮演的软件。
大模型日报(4月18日 学术篇)https://github.com/kwaroran/RisuAI大模型日报(4月18日 学术篇)

大模型日报16

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/15998.html

Like (0)
Previous 2024-04-18 17:38
Next 2024-04-19 16:11

相关推荐

  • 大模型日报(8月24~25日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-25
    260
  • 大模型日报(5月29日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-29
    214
  • #趣读文献 基于语音信号的深度学习入侵检测模型 Aldarwbi et al., (2022)

    The sound of intrusion: A novel network intrusion detection system 我其实就是被这个标题给吸引过来的,通读了一遍文…

    2022-11-11
    134
  • 大模型日报(6月14日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-06-14
    135
  • 大模型日报(8月26日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-26
    210
  • 让AI助手探索你的研究领域,只需七步!

    让AI助手探索你的研究领域,只需七步! 刚好在咖啡店拿着手机和AI助手侃侃而谈了一把,顺便对某个研究领域从外围往内核理一理思路,起初觉得AI的回答很体系化,有种滴水不漏的感觉,仔细…

    2023-06-27
    188
  • OpenAI和DeepLearning.AI最新的指令工程课程,能给我们带来什么?

    OpenAI和DeepLearning.AI最新的指令工程课程,能给我们带来什么? 目前,有很多关于LLM Prompting的文章,但大多聚焦在ChatGPT的网页用户界面上,仅…

    2023-04-28
    138
  • 大模型日报(5月27日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。 欢迎大家一起交流! 论文 0…

    2024-05-27
    148
  • 大模型日报(8月2日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-08-02
    254
  • 大模型日报(6月27日 学术篇)

    我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。 「奇绩大模型日报」知识库现已登陆飞书官方社区: https://www.feishu.…

    2024-06-27
    190