大模型日报（5月25~26日学术篇）

我们希望能够搭建一个AI学习社群，让大家能够学习到最前沿的知识，大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流，欢迎扫码。

欢迎大家一起交流！

学习

奥创纪元：当推荐系统遇到大模型LLM

文章首先介绍了大模型 LLM 在推荐系统中的潜力，并对 LLM 与传统推荐系统进行了对比，指出 LLM 能够引入外部世界知识，丰富语义信号，提高可解释性，但缺乏协同信号，对冷启动问题友好。接着，文章从应用视角出发，将 LLM 应用拆解到推荐系统的各个模块，包括数据采集、特征工程、特征编码、打分排序和推荐流程控制。文章详细介绍了 LLM 在特征工程中的应用，如 GPT4Rec、GENRE、KAR 和 MINT 等项目，这些项目利用 LLM 的能力生成辅助信息、丰富新闻数据、补全知识图谱和提供个性化内容生成等。在特征编码方面，文章提到了 ERNIE-RS、UniSRec、MoRec v.s. IDRec 和 TCF 等研究，这些研究利用 LLM 的通用语义表达能力进行编码，以提高推荐系统的性能。在打分排序方面，文章讨论了 LLM 作为打分工具的应用，包括 RecFormer、Prompt4N 等项目。最后，文章探讨了 LLM 作为推荐系统整体流程控制器的潜力，以及在训练和推理阶段是否需要微调大模型的问题。文章还提供了未来研究的展望，包括新推荐范式和避免大模型偏见等方面。

https://zhuanlan.zhihu.com/p/668673674

GPU 利用率低常见原因分析及优化

GPU 利用率低常见原因包括数据加载、预处理瓶颈、频繁模型保存、复杂指标计算和过多日志打印。优化策略如下：

数据加载：采用多进程并行读取、启用提前加载机制、使用共享内存pin_memory，确保数据与计算资源同城，选择高性能存储介质，合并小文件。
数据预处理：简化预处理逻辑，使用 GPU 加速，如 Nvidia DALI 库。
模型保存：减少保存频率，避免 CPU 成为瓶颈。
指标计算：简化loss计算，抽样上报指标。
日志打印：减少打印频率，避免频繁 CPU-GPU 切换。

分布式任务中，应确保节点同步、启用 GDRDMA，采用DistributedDataParallel进行数据并行。

https://zhuanlan.zhihu.com/p/410244780

Agent的九种设计模式(图解+代码)

Agent 设计模式是一种常见的软件设计模式，它允许代理对象控制对另一个对象的访问。本文首先介绍了 Agent 设计模式的概念和优势，然后分别详细介绍了九种 Agent 模式的实现方式，包括远程代理（Remote Proxy）、虚拟代理（Virtual Proxy）、保护代理（Protect Proxy）、智能引用代理（Smart Reference Proxy）、写入时复制代理（Copy-On-Write Proxy）、缓存代理（Cache Proxy）、同步代理（Synchronization Proxy）、防火墙代理（Firewall Proxy）和远程加载代理（Lazy Acquisition Proxy）。对于每种代理模式，文章都提供了图解和代码示例，帮助读者更好地理解和掌握每种模式的使用方法和适用场景。

https://zhuanlan.zhihu.com/p/692971105

全面探究英伟达GPU SM内CUDA core-Tensor core能否同时计算？(上篇)

本文探讨了英伟达GPU中SM内CUDA Core和Tensor Core是否能同时进行计算的问题。尽管共享存储堆栈，但由于调度机制限制，无法最大化利用两者。提出通过更细粒度的调度策略，实现并行计算以提高吞吐量。挑战包括调度算法、资源有限性和调度策略。引入persistent block和elastic block机制，优化资源使用。实验证明并行计算的可能性，通过overlap rate衡量效率。最后讨论了并行程度低的原因，强调编译时和运行时的优化策略。展示了在SM内实现高效并行计算的重要性。

https://zhuanlan.zhihu.com/p/697000619

全面探究GPU SM内CUDA core-Tensor core能否同时计算？(下篇)

本文研究了提高 GPU 并行计算效率的技术，通过引入 persistent block 和 elastic block 机制，解决了 SM 内 CUDA Core 和 Tensor Core 同时计算时的资源竞争问题。Persistent block 技术通过持续驻留在 GPU 上，减少了线程占用，提高了计算资源的利用率。Elastic block 则通过弹性调整 block 大小，减少了内存资源争用，保持了较高的并行性。实验结果表明，这种方法能显著提升 GPU 在处理 CUDA stream 调度时的吞吐量，尤其是在处理大型计算密集型任务时，如深度学习模型推理。此外，文章还强调了调度策略在提高并行计算效率中的重要作用，通过 offline-online 协同调度，动态优化了 kernel 的执行计划，确保了 Tensor Core 和 CUDA Core 的最大化并行。这项技术对于高效利用 GPU 计算资源，特别是在面对多样化计算任务时，具有重要的实际意义。

https://zhuanlan.zhihu.com/p/698572611

陪伴机器人：未来家庭新成员

文章探讨了陪伴机器人作为家庭新成员的可能性。随着大语言模型的兴起，智能硬件厂商开始探索实体陪伴机器人，如三星的Ballie和LG的Q9。陪伴机器人需在理解语境的基础上提供积极反馈，不仅限于语言，还包括物理接触。儿童、青年和老人对陪伴的需求不同，儿童喜欢交互性强的智能硬件，青年倾向于情感寄托，老人更关注功能属性和社会尊重。实体陪伴机器人应具备主动交互的自主性，而非被动响应。技术层面，大模型的上下文理解能力可提升传统对话能力，但陪伴的核心在于非言语信号的理解。未来陪伴机器人可能更像宠物，提供情感支持，但成本和消费者接受度是挑战。

https://mp.weixin.qq.com/s/6MiGyuT2oQc73DhqV0F9WQ

HuggingFace&Github

RAGapp

RAGapp 是一个易于部署的 Agentic RAG 对话系统，适用于企业级应用。它可以使用来自 OpenAI、Gemini 或本地 Ollama 模型，通过 Docker 容器部署在自己的云基础设施上。RAGapp 提供了管理 UI、聊天 UI 和 API 接口，并支持 Docker Compose 和未来的 Kubernetes 部署方式。

https://github.com/ragapp/ragapp

KsanaLLM —— 一念 LLM

一念 LLM (KsanaLLM) 是一个高性能和高易用的大语言模型推理引擎。它采用了多项优化技术，包括使用优化的 CUDA 内核、高效的显存管理、动态 batching 等，实现了高性能和高吞吐的推理能力。同时它也具有良好的灵活性和易用性，可无缝集成 Hugging Face 格式的流行 LLM 模型，支持多种解码算法和硬件平台。一念 LLM 针对性地优化了 LLM 推理的各个环节，为实际应用场景提供了一个高效可靠的解决方案。

https://github.com/pcg-mlp/KsanaLLM

推荐阅读

原创文章，作者：LLM Space，如若转载，请注明出处：https://www.agent-universe.cn/2024/05/15125.html