大模型日报(12月31日 学术篇)

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

学术分析报告:ResearchFlow — 奇绩F23校友的开发的深度研究产品,PC端进入RFlow的分析报告,可直接点击节点右侧的小数字展开节点,登录后可在节点上直接“询问AI”,进一步探索深度信息

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

大模型日报(12月31日 学术篇)

叶添揭秘大语言模型推理机制——超越人类的二级推理

奇绩潜空间活动报名

【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,潜空间定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。

第五季第二期潜空间邀请到的嘉宾是清华大学姚班,卡内基梅隆大学博士生,Physics of LLM 2.1作者,于 Meta 担任 Research Scientist Intern叶添,在本次活动中叶添将在北京现场与大家面对面交流,他分享的主题是《揭秘大语言模型推理机制——超越人类的二级推理》。

大模型日报(12月31日 学术篇)

信号

01

HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

OpenAI o1 的突破凸显了通过增强推理能力来改进 LLM 的潜力。然而,大多数推理研究都集中在数学任务上,而医学等领域尚未得到充分探索。医学领域虽然不同于数学,但考虑到医疗保健的高标准,它也需要强大的推理能力来提供可靠的答案。然而,与数学不同,验证医学推理具有挑战性。为了解决这个问题,我们提出了可验证的医学问题,并使用医学验证器来检查模型输出的正确性。这种可验证的特性通过两阶段方法推动了医学推理的进步:(1)使用验证器指导搜索复杂的推理轨迹以微调 LLM,(2)应用基于验证器的奖励的强化学习 (RL) 来进一步增强复杂推理。最后,我们推出了 HuatuoGPT-o1,这是一种能够进行复杂推理的医学 LLM,它仅使用 40K 个可验证问题就超越了一般和医学特定的基线。实验表明,复杂推理可以提高医学问题的解决能力,并且从强化学习中获益更多。我们希望我们的方法能够促进医学和其他专业领域的推理进步。
大模型日报(12月31日 学术篇)
原文链接:https://arxiv.org/abs/2412.18925
ResearchFlow链接:https://rflow.ai/flow/f0abd282-80dd-4d2e-8928-f1ce97575078
02

Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

下一个标记预测 (NTP) 以自然语言处理中的语言建模为基础,已发展成为跨各种模态的机器学习任务的多功能训练目标,并取得了相当大的成功。随着大型语言模型 (LLM) 的发展,统一了文本模态中的理解和生成任务,最近的研究表明,不同模态的任务也可以有效地封装在 NTP 框架中,将多模态信息转换为标记并根据上下文预测下一个标记。本综述介绍了一种全面的分类法,通过 NTP 的视角统一了多模态学习中的理解和生成。提议的分类法涵盖五个关键方面:多模态标记化、MMNTP 模型架构、统一任务表示、数据集和评估以及开放挑战。这种新的分类法旨在帮助研究人员探索多模态智能。收集最新论文和存储库的相关 GitHub 存储库可在此 https URL 上找到
大模型日报(12月31日 学术篇)
原文链接:https://arxiv.org/abs/2412.18619
ResearchFlow链接:https://rflow.ai/flow/9f711ecd-e021-436d-befc-08e4ea459607
03

Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models

方向是物体的一个关键属性,对于理解它们在图像中的空间姿势和排列至关重要。然而,从单个图像进行精确方向估计的实用解决方案仍未得到充分探索。在这项工作中,我们介绍了 Orient Anything,这是第一个旨在估计单视图和自由视图图像中物体方向的专家和基础模型。由于标记数据的稀缺性,我们建议从 3D 世界中提取知识。通过开发一个管道来注释 3D 物体的正面并从随机视图渲染图像,我们收集了 200 万张带有精确方向注释的图像。为了充分利用数据集,我们设计了一个强大的训练目标,将 3D 方向建模为三个角度的概率分布,并通过拟合这些分布来预测物体方向。此外,我们采用了几种策略来改进从合成到真实的迁移。我们的模型在渲染图像和真实图像中都实现了最先进的方向估计精度,并在各种场景中表现出令人印象深刻的零样本能力。更重要的是,我们的模型增强了许多应用,例如复杂空间概念的理解和生成以及 3D 物体姿势调整。
大模型日报(12月31日 学术篇)原文链接:https://arxiv.org/abs/2412.18605
ResearchFlow链接:https://rflow.ai/flow/0b8f3612-efe3-4bac-b12b-d09624fcb149
04

VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

零样本定制视频生成因其巨大的应用潜力而备受关注。现有方法依赖于附加模型来提取和注入参考主体特征,认为单靠视频扩散模型 (VDM) 不足以生成零样本定制视频。然而,由于特征提取和注入技术不够完善,这些方法往往难以保持一致的主体外观。在本文中,我们揭示了 VDM 本身具有提取和注入主体特征的能力。与以前的启发式方法不同,我们引入了一个新框架,利用 VDM 的固有能力来实现高质量的零样本定制视频生成。具体而言,对于特征提取,我们直接将参考图像输入 VDM 并使用其固有的特征提取过程,这不仅提供了细粒度的特征,而且与 VDM 的预训练知识显著一致。对于特征注入,我们通过 VDM 中的空间自注意力设计了一种创新的主体特征与生成内容之间的双向交互,确保 VDM 具有更好的主体保真度,同时保持生成视频的多样性。对定制人物和物体视频生成的实验验证了我们框架的有效性。
大模型日报(12月31日 学术篇)
原文链接:https://arxiv.org/abs/2412.19645
ResearchFlow链接:https://rflow.ai/flow/3534bd5d-868b-4c89-aa6f-66e4e9275fad
05

Preference Discerning with LLM-Enhanced Generative Retrieval

顺序推荐系统旨在根据用户的交互历史为他们提供个性化推荐。为了实现这一点,它们通常会结合辅助信息,例如项目的文本描述和辅助任务,例如预测用户的偏好和意图。尽管我们付出了很多努力来增强这些模型,但它们仍然受到个性化限制的影响。为了解决这个问题,我们提出了一种新的范式,我们称之为偏好辨别。在偏好辨别中,我们明确地根据用户在其上下文中的偏好来调节生成顺序推荐系统。为此,我们使用基于用户评论和特定于项目的数据的大型语言模型 (LLM) 生成用户偏好。为了评估顺序推荐系统的偏好辨别能力,我们引入了一个新颖的基准,该基准可在各种场景中提供整体评估,包括偏好引导和情绪跟随。我们使用我们的基准评估了当前最先进的方法,并表明它们很难准确辨别用户偏好。因此,我们提出了一种名为 Mender(多模态偏好辨别器)的新方法,它改进了现有方法并在我们的基准上实现了最先进的性能。我们的结果表明,即使在训练过程中没有观察到人类偏好,Mender 也可以有效地受到人类偏好的引导,从而为更加个性化的顺序推荐系统铺平了道路。我们将在发布后开源代码和基准。
大模型日报(12月31日 学术篇)
原文链接:https://arxiv.org/abs/2412.08604
ResearchFlow链接:https://rflow.ai/flow/44687308-8c6b-4e25-b390-4bc4076b486b

 HuggingFace&Github

01

Google Cloud Vertex AI 示例

Vertex AI 是一个完全托管的统一 AI 开发平台,专为构建和使用生成式 AI 设计,旨在简化和加速 AI 项目的开发与部署。无论您是刚刚接触 Vertex AI 的新手,还是已经拥有丰富经验的机器学习从业者,您都可以通过这个存储库找到丰富的资源和实用的示例,帮助您快速上手并提升开发效率。此外,如果您需要更多关于 Vertex AI Generative AI 的笔记本示例,欢迎访问 Vertex AI Generative AI GitHub 存储库,其中包含了更多实用案例和代码,助您更深入地了解和使用生成式 AI 技术。
https://github.com/GoogleCloudPlatform/vertex-ai-samples


推荐阅读
  — END —
1.   The theory of LLMs|朱泽园ICML演讲整理

2.   「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

3.   「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

原创文章,作者:LLM Space,如若转载,请注明出处:https://www.agent-universe.cn/2024/12/29547.html

Like (0)
Previous 2024-12-31 18:33
Next 2024-12-31 22:21

相关推荐