特别活动!
欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。
论文
RecurrentGemma:超越Transformer以提高效率的开放语言模型

JetMoE: 用10万美元达到Llama2性能

Rho-1: 并非所有 token 都是你所需的

语言模型合成数据的最佳实践和经验教训

HGRN2:具有状态扩展的门控线性RNN

ResearchAgent:利用大语言模型在科学文献中进行迭代研究思想生成

为什么小型语言模型表现不佳?通过Softmax瓶颈研究语言模型饱和

从单词到数字:你的大语言模型在给定上下文示例时悄悄成为了一个能干的回归器

llm.c
Realmdreamer

recurrentgemma-2b
大模型日报16
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/16165.html