我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。
https://www.feishu.cn/community/article/wiki?id=7355065047338450972
点击「订阅社区精选」,即 可在飞书每日收到《大模型日报》每日最新推送
学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息
如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。
欢 迎 大 家 一 起 交 流 !
信号
Diffusion Self-Distillation for Zero-Shot Customized Image Generation
我们提出了扩散自蒸馏方法,这是一种使用预先训练的文本到图像模型为文本条件图像到图像任务生成自己的数据集的方法。我们首先利用文本到图像扩散模型的上下文生成能力来创建图像网格,并在视觉语言模型的帮助下整理大型配对数据集。然后,我们使用整理的配对数据集将文本到图像模型微调为文本+图像到图像模型。
https://arxiv.org/abs/2411.18616
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models
我们提出了 CAT4D,一种从单目视频创建 4D(动态 3D)场景的方法。CAT4D 利用在多种数据集组合上训练的多视图视频扩散模型,实现在任何指定的相机姿势和时间戳下的新视图合成。结合新颖的采样方法,该模型可以将单个单目视频转换为多视图视频,通过优化可变形的 3D 高斯表示实现稳健的 4D 重建。我们在新视图合成和动态场景重建基准上展示了具有竞争力的性能,并强调了从真实或生成的视频生成 4D 场景的创造性能力。
https://arxiv.org/abs/2411.18613
GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data
我们提出了一个可通用的图像到 3D 人体重建框架,称为 GeneMAN,它建立在全面的多源高质量人体数据集合之上,包括 3D 扫描、多视角视频、单张照片和我们生成的合成人体数据。GeneMAN 包含三个关键模块。 1) GeneMAN 不依赖参数化人体模型(例如 SMPL),而是首先训练一个针对人类的文本到图像扩散模型和一个视角条件扩散模型,分别作为 GeneMAN 2D 人体先验和 3D 人体先验进行重建。2) 借助预训练的人体先验模型,利用几何初始化和雕刻管道根据单个图像恢复高质量的 3D 人体几何形状。3) 为了实现高保真 3D 人体纹理,GeneMAN 采用了多空间纹理细化管道,连续细化潜在空间和像素空间中的纹理。
https://arxiv.org/abs/2411.18624v1
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models
我们提出一个通用框架来识别和解释 LMM 中的语义,迈出了解决这个问题的第一步。具体来说,1) 我们首先应用稀疏自动编码器 (SAE) 将表征分解为人类可理解的特征。2) 然后,我们提出一个自动解释框架来解释 LMM 本身在 SAE 中学习到的开放语义特征。我们利用这个框架使用 LLaVA-OV-72B 模型分析了 LLaVA-NeXT-8B 模型,证明了这些特征可以有效地控制模型的行为。我们的结果有助于更深入地理解 LMM 在特定任务(包括情商测试)中表现出色的原因,并阐明了其错误的性质以及纠正错误的潜在策略。这些发现为 LMM 的内部机制提供了新的见解,并表明其与人类大脑的认知过程有相似之处。
https://arxiv.org/abs/2411.14982
Opik
Opik 是一个开源的端到端 LLM 开发平台,专注于评估、测试和监控 LLM 应用程序。它提供了跟踪 LLM 调用、注释反馈、自动化评估流程和生产监控等功能。主要功能包括在开发和生产环境中跟踪 LLM 调用、使用 Python SDK 或 UI 记录反馈分数、自动化评估过程(如存储测试用例和运行实验)、通过 PyTest 实现持续集成和持续部署,以及监控生产环境中的 LLM 应用程序并将错误跟踪整合到评估数据集中。
https://github.com/comet-ml/opik
Keep
这是一个开源的警报管理和 AIOps 平台,提供单一监控视图、去重、过滤等功能,支持双向集成、工作流和仪表板等。其主要功能包括可定制的用户界面、警报管理工具、深度集成与监控工具的同步、自动化监控工具的 GitHub Actions,以及基于 AI 的关联和总结(AIOps 2.0)。
https://github.com/keephq/keep
原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/23089.html