我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
论文
用于涌现和缩放定律的可解模型

AdvPrompter: 快速自适应生成 LLM 对抗提示词方法

玩家驱动的智能体在LLM驱动的游戏叙事中的涌现

小语言模型需要强的验证者来自我纠正推理

大语言模型事件推理能力的综合评估

REBEL:通过回归相对奖励进行强化学习

在线强化学习中重置的力量
-
我们展示了具有低覆盖性的MDPs(Xie等人,2023年)– 这是一个一般的结构条件,包含块MDPs和低秩MDPs — 可以通过仅具有Q*-可实现性(最优状态价值函数的可实现性)以样本高效的方式学习;现有的在线强化学习算法需要更强的表示条件。 -
因此,我们展示了臭名昭著的外部块MDP问题(Efroni等人,2022年)在局部模拟器访问下是可以解决的。

MyShell——Open Voice

IDM—VTON
https://github.com/mishushakov/llm-scraper
大模型日报16
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/04/15702.html