大模型日报(5月25~26日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(5月25~26日 学术篇)

学习

01

奥创纪元:当推荐系统遇到大模型LLM

文章首先介绍了大模型 LLM 在推荐系统中的潜力,并对 LLM 与传统推荐系统进行了对比,指出 LLM 能够引入外部世界知识,丰富语义信号,提高可解释性,但缺乏协同信号,对冷启动问题友好。接着,文章从应用视角出发,将 LLM 应用拆解到推荐系统的各个模块,包括数据采集、特征工程、特征编码、打分排序和推荐流程控制。文章详细介绍了 LLM 在特征工程中的应用,如 GPT4Rec、GENRE、KAR 和 MINT 等项目,这些项目利用 LLM 的能力生成辅助信息、丰富新闻数据、补全知识图谱和提供个性化内容生成等。在特征编码方面,文章提到了 ERNIE-RS、UniSRec、MoRec v.s. IDRec 和 TCF 等研究,这些研究利用 LLM 的通用语义表达能力进行编码,以提高推荐系统的性能。在打分排序方面,文章讨论了 LLM 作为打分工具的应用,包括 RecFormer、Prompt4N 等项目。最后,文章探讨了 LLM 作为推荐系统整体流程控制器的潜力,以及在训练和推理阶段是否需要微调大模型的问题。文章还提供了未来研究的展望,包括新推荐范式和避免大模型偏见等方面。
大模型日报(5月25~26日 学术篇)https://zhuanlan.zhihu.com/p/668673674
02

GPU 利用率低常见原因分析及优化

GPU 利用率低常见原因包括数据加载、预处理瓶颈、频繁模型保存、复杂指标计算和过多日志打印。优化策略如下:
  1. 数据加载:采用多进程并行读取、启用提前加载机制、使用共享内存pin_memory,确保数据与计算资源同城,选择高性能存储介质,合并小文件。
  2. 数据预处理:简化预处理逻辑,使用 GPU 加速,如 Nvidia DALI 库。
  3. 模型保存:减少保存频率,避免 CPU 成为瓶颈。
  4. 指标计算:简化loss计算,抽样上报指标。
  5. 日志打印:减少打印频率,避免频繁 CPU-GPU 切换。
分布式任务中,应确保节点同步、启用 GDRDMA,采用DistributedDataParallel进行数据并行。
大模型日报(5月25~26日 学术篇)https://zhuanlan.zhihu.com/p/410244780
03

Agent的九种设计模式(图解+代码)

Agent 设计模式是一种常见的软件设计模式,它允许代理对象控制对另一个对象的访问。本文首先介绍了 Agent 设计模式的概念和优势,然后分别详细介绍了九种 Agent 模式的实现方式,包括远程代理(Remote Proxy)、虚拟代理(Virtual Proxy)、保护代理(Protect Proxy)、智能引用代理(Smart Reference Proxy)、写入时复制代理(Copy-On-Write Proxy)、缓存代理(Cache Proxy)、同步代理(Synchronization Proxy)、防火墙代理(Firewall Proxy)和远程加载代理(Lazy Acquisition Proxy)。对于每种代理模式,文章都提供了图解和代码示例,帮助读者更好地理解和掌握每种模式的使用方法和适用场景。
大模型日报(5月25~26日 学术篇)https://zhuanlan.zhihu.com/p/692971105
04

全面探究英伟达GPU SM内CUDA core-Tensor core能否同时计算?(上篇)

本文探讨了英伟达GPU中SM内CUDA Core和Tensor Core是否能同时进行计算的问题。尽管共享存储堆栈,但由于调度机制限制,无法最大化利用两者。提出通过更细粒度的调度策略,实现并行计算以提高吞吐量。挑战包括调度算法、资源有限性和调度策略。引入persistent block和elastic block机制,优化资源使用。实验证明并行计算的可能性,通过overlap rate衡量效率。最后讨论了并行程度低的原因,强调编译时和运行时的优化策略。展示了在SM内实现高效并行计算的重要性。
大模型日报(5月25~26日 学术篇)https://zhuanlan.zhihu.com/p/697000619
05

全面探究GPU SM内CUDA core-Tensor core能否同时计算?(下篇)

本文研究了提高 GPU 并行计算效率的技术,通过引入 persistent block 和 elastic block 机制,解决了 SM 内 CUDA Core 和 Tensor Core 同时计算时的资源竞争问题。Persistent block 技术通过持续驻留在 GPU 上,减少了线程占用,提高了计算资源的利用率。Elastic block 则通过弹性调整 block 大小,减少了内存资源争用,保持了较高的并行性。实验结果表明,这种方法能显著提升 GPU 在处理 CUDA stream 调度时的吞吐量,尤其是在处理大型计算密集型任务时,如深度学习模型推理。此外,文章还强调了调度策略在提高并行计算效率中的重要作用,通过 offline-online 协同调度,动态优化了 kernel 的执行计划,确保了 Tensor Core 和 CUDA Core 的最大化并行。这项技术对于高效利用 GPU 计算资源,特别是在面对多样化计算任务时,具有重要的实际意义。
大模型日报(5月25~26日 学术篇)https://zhuanlan.zhihu.com/p/698572611
06

陪伴机器人:未来家庭新成员

文章探讨了陪伴机器人作为家庭新成员的可能性。随着大语言模型的兴起,智能硬件厂商开始探索实体陪伴机器人,如三星的Ballie和LG的Q9。陪伴机器人需在理解语境的基础上提供积极反馈,不仅限于语言,还包括物理接触。儿童、青年和老人对陪伴的需求不同,儿童喜欢交互性强的智能硬件,青年倾向于情感寄托,老人更关注功能属性和社会尊重。实体陪伴机器人应具备主动交互的自主性,而非被动响应。技术层面,大模型的上下文理解能力可提升传统对话能力,但陪伴的核心在于非言语信号的理解。未来陪伴机器人可能更像宠物,提供情感支持,但成本和消费者接受度是挑战。
大模型日报(5月25~26日 学术篇)https://mp.weixin.qq.com/s/6MiGyuT2oQc73DhqV0F9WQ
HuggingFace&Github

01

RAGapp

RAGapp 是一个易于部署的 Agentic RAG 对话系统,适用于企业级应用。它可以使用来自 OpenAI、Gemini 或本地 Ollama 模型,通过 Docker 容器部署在自己的云基础设施上。RAGapp 提供了管理 UI、聊天 UI 和 API 接口,并支持 Docker Compose 和未来的 Kubernetes 部署方式。
大模型日报(5月25~26日 学术篇)https://github.com/ragapp/ragapp
02

KsanaLLM —— 一念 LLM

一念 LLM (KsanaLLM) 是一个高性能和高易用的大语言模型推理引擎。它采用了多项优化技术,包括使用优化的 CUDA 内核、高效的显存管理、动态 batching 等,实现了高性能和高吞吐的推理能力。同时它也具有良好的灵活性和易用性,可无缝集成 Hugging Face 格式的流行 LLM 模型,支持多种解码算法和硬件平台。一念 LLM 针对性地优化了 LLM 推理的各个环节,为实际应用场景提供了一个高效可靠的解决方案。
https://github.com/pcg-mlp/KsanaLLM
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

    — END —

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15125.html

Like (0)
Previous 2024-05-24 19:18
Next 2024-05-26 22:51

相关推荐