特别活动
我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
学习
新兴的AI AgentOps景观:建设者的视角

原理&图解vLLM Automatic Prefix Cache(RadixAttention): 首Token时延优化

Flash Attention (GPT2 implement)
forward
方法中如何修改以支持Flash Attention,包括对attention_mask
处理的调整以及如何封装_flash_attention_forward
方法。文章还探讨了_upad_input
函数的实现,以及如何使用flash_attn_varlen_func
和pad_input
函数处理变长序列。最后,作者提供了一个测试Flash Attention正确性的函数,并分享了初步测试结果,指出当前Flash Attention在GPT2上可能存在问题,因为引入Flash Attention后训练loss与不使用时有较大差异。
StarCoder2-Instruct: 完全透明和可自我对齐的代码生成

PyTorch加速LLAMA3技术详解

[CUDA 学习笔记] GEMM 优化: 双缓冲 (Prefetch) 和 Bank Conflict 解决

Markdowner

Crawl4AI
Rill Flow
Agentcloud
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/05/15475.html