我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢迎大家一起交流!

信号
Cut Your Losses in Large-Vocabulary Language Models
我们提出了 Cut Cross-Entropy (CCE),这是一种计算交叉熵损失的方法,无需将所有标记的逻辑实现到全局内存中。相反,CCE 只计算正确标记的逻辑,并动态评估所有逻辑的对数和指数。我们还实现了一个自定义内核,它在闪存中对词汇表执行矩阵乘法和对数和指数缩减,使交叉熵计算的全局内存消耗可以忽略不计。这产生了显著的效果。以 Gemma 2 (2B) 模型为例,CCE 将损失计算的内存占用从 24 GB 减少到 1 MB,将分类器头的总训练时间内存消耗从 28 GB 减少到 1 GB。为了提高 CCE 的吞吐量,我们利用 softmax 固有的稀疏性,并建议跳过对梯度贡献可忽略不计(即低于数值精度)的梯度计算元素。实验表明,在不牺牲训练速度或收敛性的情况下,内存消耗大幅减少。
https://arxiv.org/abs/2411.09009
ResearchFlow:https://rflow.ai/flow/5dfc845c-2338-45c4-9a40-0ca1cd683aa6
Adaptive Decoding via Latent Preference Optimization
在这项工作中,我们引入了自适应解码,这是添加到模型中的一层,用于在推理时在标记或示例级别动态选择采样温度,以优化性能。为了学习它的参数,我们引入了潜在偏好优化 (LPO),这是一种训练离散潜在变量(例如温度选择)的通用方法。我们的方法在一系列需要不同温度的任务中优于所有固定解码温度,包括 UltraFeedback、Creative Story Writing 和 GSM8K。
https://arxiv.org/abs/2411.09661
ResearchFlow:https://rflow.ai/flow/e98b29aa-37be-4e1f-a1f3-0feaf4e7b1ea
KALIE: Fine-Tuning Vision-Language Models for Open-World Manipulation without Robot Data
受大型预训练模型的进步启发,我们提出了从想象环境中进行关键点可供性学习 (KALIE),它以可扩展的方式调整预训练的视觉语言模型 (VLM) 以进行机器人控制。KALIE 不是直接产生运动命令,而是通过基于自然语言指令和对场景的视觉观察预测基于点的可供性表示来控制机器人。VLM 在具有人类标记的可供性的 2D 图像上进行训练,从而无需在机器人系统上收集训练数据。通过可供性感知数据合成管道,KALIE 可以根据人类手动收集的有限示例数据自动创建大量高质量训练数据。我们证明,仅给出 50 个示例数据点,KALIE 就可以学会稳健地解决带有看不见物体的新操作任务。与使用预训练 VLM 的基线相比,我们的方法始终实现卓越的性能。
https://arxiv.org/abs/2409.14066
ResearchFlow:https:https://rflow.ai/flow/249763c3-0918-4458-b0ab-511488dd65dc
LLaMA-Mesh
该项目提出了一种名为”LLaMA-Mesh”的方法,希望将大型语言模型(LLMs)的能力扩展到3D网格生成。该方法通过将3D网格数据表示为纯文本,实现了文本和3D网格的统一。这样可以利用LLMs已经从文本资源中学习到的空间知识,并支持基于文本的3D网格生成和理解。

https://github.com/nv-tlabs/LLaMA-Mesh
comfyui_LLM_party
ComfyUI LLM Party 是一个基于 ComfyUI 的 LLM 工作流构建框架。它允许用户快速方便地构建自己的 LLM 工作流,并轻松地将其集成到现有的图像工作流中。

https://github.com/heshengtao/comfyui_LLM_party
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/11/21703.html