欢迎观看大模型日报,如需进入大模型日报群和空间站请直接扫码。社群内除日报外还会第一时间分享大模型活动。
论文
密集训练,稀疏推断:重新思考混合专家语言模型的训练

语言模型的物理学:第3.3部分,知识容量缩放定律
-
具有旋转嵌入的GPT-2架构,在知识存储方面与LLaMA/Mistral架构相匹敌甚至超越,特别是在较短的训练持续时间内。这是因为LLaMA/Mistral使用了不太稳定且难以训练的GatedMLP。 -
在训练数据前添加域名(例如,wikipedia.org)显著增加了模型的知识容量。语言模型可以自主识别和优先考虑知识丰富的域,优化其存储能力。

MIMIR:领域专家个性化智能体调优的简化平台

使用合成数据进行训练有多糟糕?语言模型崩溃的统计分析

探索与理解DPO限制的理论视角

SqueezeAttention: 通过分层最优预算在LLM推理中管理KV缓存的二维方式

一个大规模的μ-转移的探索

nanoLM: 通过准确损失预测跨尺度预训练LM的可负担性基准

Diffusion-RWKV:为扩散模型扩展RWKV类架构

FreeAskInternet
BIG-AGI

Cerule-v0.1
大模型日报16
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/16295.html